Zablokuj bootstrap dla nowicjusza

Aby umieścić moje pytanie w kontekście, jestem fizykiem, ale z ograniczonym kontaktem ze statystykami, a to, czego nauczyłem się, to ponad 30 Lata temu.

Próbuję nauczyć się bootstrapu blokowego, ponieważ ta technika może być odpowiednia do rozwiązania problemu, nad którym pracuję. Mogę znaleźć wiele artykułów / książek / informacji na temat matematyki ładowania blokowego, ale najpierw chciałbym znaleźć ogólny opis procesu ładowania blokowego przed „zapuszczeniem się” w zagadnienia takie jak bootstrapowanie bloków ruchomych, ładowanie bloków kołowych, ładowanie bloków stacjonarnych , długości bloków, wielkość próbek itp.

Mam nadpróbkowane skorelowane dane, 5 zmiennych (kolumn) przez 10000 obserwacji (wierszy), które chcę zredukować do około 100 wierszy danych. Dane są seriami czasowymi, ale nie ciągłymi i mogą się w nich znajdować również dane z różnych lokalizacji, co oznacza, że możesz mieć różne dane w tym samym czasie (jeśli to ostatnie jest problemem przy ładowaniu blokowym, mogę usunąć „zduplikowane” dane w samą porę). Bootstrapowanie blokowe pozwoliłoby na replikację korelacji danych.

Ostatecznym celem jest zredukowanie zbioru danych do ~ 100 wierszy danych, tak aby zarówno pdf, jak i cdf pełnego zbioru danych i zredukowany zestaw danych były takie same (w jeszcze nie zdefiniowanym minimalnym zakresie błędu) dla wszystkich 5 zmiennych.

Pytanie: 1) Czy ładowanie blokowe będzie w stanie to zrobić? 2) Jak wygląda to krok po kroku? Nie spodziewam się, aby ktokolwiek szczegółowo opisał tutaj cały proces, ale może ktoś umieścił tam wideo z YouTubea lub „bootstrapowanie dla manekinów”, od których mógłbym zacząć.

Spojrzałem na podobne pytania na temat ładowania blokowego tu i tam jest na temat „Zasoby do nauki o ładowaniu blokowym w analizie szeregów czasowych”, ale odniesienia w odpowiedziach zakładają, że muszę opanować umiejętności statystyczne.

Komentarze

  • Co powiesz na to wprowadzenie ? Zawiera wprowadzenie do ładowania początkowego, a następnie do bloku ładującego.

Odpowiedź

Bezmodelowe ponowne próbkowanie szeregów czasowych jest realizowane przez ponowne próbkowanie blokowe, zwane także blokowym ładowaniem początkowym, które można zaimplementować za pomocą tsboot w pakiecie rozruchowym R. Pomysł polega na podzieleniu serii na bloki z grubsza równej długości kolejnych obserwacji, ponowne próbkowanie bloku z zastąpieniem, a następnie wklejenie bloków w celu jej. Na przykład, jeśli szereg czasowy ma długość 200 i używa się 10 bloków o długości 20, to bloki to pierwsze 20 obserwacji, następne 20 i tak dalej. Możliwym ponownym próbkowaniem jest czwarty blok (obserwacja 61 do 80), następnie ostatni blok (obserwacja 181 do 200), następnie drugi blok (obserwacja 21 do 40), następnie czwarty blok znowu i tak dalej, aż będzie 10 bloków w resample. Jak wykonać ładowanie początkowe z danymi szeregów czasowych?

Komentarze

  • Co Economia wyjaśniła, że metoda boostrapping jest poprawna, ale należy zauważyć, że próbka bootstrap nie jest wykorzystywana do redukcji zbioru danych do mniejszego zbioru danych o tym samym rozkładzie bazowym. (co powiedziałeś, że jest twoim celem). Metoda bootstrap jest używana do testowania niektórych hipotez poprzez tworzenie próbki bootstrapowanej, a następnie sprawdzanie, gdzie wypada statystyka (ta, która jest testowana) w odniesieniu do rozkładu empirycznego próbki ładowanej. Tak więc redukcja zbioru danych do mniejszego zbioru danych nie jest celem bstrappingu. Jest on ' używany do testowania hipotez w sposób wolny od modeli.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *