W wikipedii o wadzie bootstrapa jest napisane:
Pozorna prostota może ukrywać fakt, że przy podejmowaniu analizy bootstrap poczyniono ważne założenia (np. niezależność próbek), podczas gdy byłoby to bardziej formalnie określone w innych podejściach.
Czy mógłbyś wyjaśnić to stwierdzenie?
Komentarze
- Powiązane: Dlaczego mój interwał ładowania początkowego ma straszne pokrycie?
- Po prostu nie rozumiem instrukcji.
- Próbki procedury ładowania początkowego są zależne, ale uzyskane próbkowanie dystrybucja jest traktowana tak, jakby została utworzona przez wartości iid.
Odpowiedź
-
To „s wiki, przeczytaj wszystkie wiki z przymrużeniem oka. Powinieneś podnieść flagę jako niejasną, opartą na opiniach lub wymagającą cytatu, wszystkie z nich są (częściowo) prawdziwe. Niedawny napływ ludzi w statystykach, którzy uważają, że można formułować i papugować szerokie stwierdzenia bez formalnego dowodu, musi być rządzony (włączam się w to stwierdzenie).
-
Początek nie wymaga, aby próbki były niezależne. Istnieją specjalne procedury ładowania początkowego, które są bardziej wydajne niż bezwarunkowy program ładujący
-
W artykule przedstawiono krytyczny błąd polegający na pomyleniu procedury generowania replik ładowania początkowego zbiór danych (który nie ma żadnych założeń) i uzyskuje przedziały ładowania / wartości p dla statystyki testowej. Metody BCa, Quantile, Normal Percentile i Double Bootstrap to tylko podzbiór tego, co jest dostępne i wszystkie zostały opracowane do wykonywania na już załadowanych replikach danych badania. Zasadniczo nie ma jednej metody uzyskiwania CI i wartości p, a dziwność staje się bardziej funkcją wybranej statystyki niż atrybutem samych danych.
Komentarze
- Bootstrap nie wymaga, aby próbki były niezależne. Myślę, że należy to rozszerzyć, aby uzyskać bardziej użyteczną odpowiedź. Na przykład, bootstrap klastra nie ' t wymagają indywidualnych obserwacji , aby były niezależne, ale klastry muszą być! Blokowanie ładowania początkowego szeregów czasowych jest bardziej interesującym przypadkiem, ale ja ' Nie wiem, jak to ' jest asymptotycznie uzasadnione (nie mówiąc tego ', po prostu mówię to ' jest poza mną) . Co najmniej " waniliowy " bootstrap, o którym większość ludzi myśli, wymaga niezależności.
- @CliffAB Twierdziłbym, że są to względy wydajności, ale niekoniecznie wnioskowania. Jeśli użyjesz bezwarunkowego ładowania początkowego w próbie z korelacją i oszacujesz parametry GLS w każdej podpróbce, oszacowania będą bardziej zróżnicowane ze względu na dodatkową zmienność wielkości klastra, ale bez innego wpływu. Zablokowany bootstrap poprawiłby wydajność.
- Ja ' obawiam się, że nie ' nie rozumiem twojego komentarza: jeśli zignorowałeś korelacje w obrębie klastrów i próbkowanych pojedynczych jednostek zamiast bloków, oszacowanie błędu standardowego metodą bootstrap (na przykład) będzie miało duże odchylenie i nie będzie spójnym estymatorem. Zatem wnioskowanie byłoby nieprawidłowe.
- @CliffAB używający ważonego ładowania początkowego do oszacowania wariancji między lub wewnątrz klastra ma z pewnością takie same atrakcyjne cechy, jak wykonanie ważonej próbki. Ale powiedziałbym w twoim przypadku, że używasz złego estymatora wariancji. Estymator wariancji GLS powinien być używany w próbce bootstrap.
- Teraz ja ' m bardziej zdezorientowany: dlaczego miałbyś używać estymatora wariancji GLS zamiast używać bootstrapa oszacowanie błędów standardowych? Dla porównania, ' odnoszę się do używania metody ładowania klastra do adresowania skorelowanych próbek, tj. en.wikipedia.org/wiki/ …
Odpowiedź
Może to być związane z faktem, że bootstrap może być czasami z grubsza przedstawiany jako procedura „bez założeń”, którą można wykorzystać do zastąpienia innych, powszechnych, np. testy, gdy ich wymagane założenia (np. normalność) nie są spełnione. Jednak ładowanie początkowe jest istotne tylko w pewnych sytuacjach, które rodzą założenia, które również muszą zostać spełnione.