I wikipedia om ulempe ved bootstrap står der:
Den tilsyneladende enkelhed kan skjule det faktum, at der antages vigtige antagelser, når man foretager bootstrap-analysen (f.eks. uafhængighed af prøver), hvor disse mere formelt vil blive angivet i andre tilgange.
Kunne du forklare denne erklæring?
Kommentarer
- Relateret: Hvorfor har mit bootstrap-interval forfærdeligt dækning?
- Jeg forstår bare ikke udsagnet.
- Prøverne af en bootstrap-procedure er afhængige, men den opnåede stikprøve distribution behandles som om den blev oprettet af iid-værdier.
Svar
-
Det “s wiki, læs hele wiki med et saltkorn. Du skal hæve et flag som uklart, meningsbaseret eller har brug for en henvisning, fordi alle disse er (delvist) sande. Den nylige tilstrømning af mennesker i statistikker, der føler, at brede udsagn kan fremsættes og papegøjes uden formelt bevis, skal regeres i (jeg inkluderer mig selv i denne erklæring).
-
Bootstrap kræver ikke at prøver er uafhængige. Der er specielle bootstrapping-procedurer, der er mere effektive end en ubetinget bootstrap
-
Artiklen gør den kritiske fejlslutning ved at sammensætte proceduren til at generere bootstrap-replikater af en datasæt (som har ingen antagelser overhovedet) og opnå bootstrap-intervaller / p-værdier til en teststatistik. Metoderne BCa, Quantile, Normal Percentile og Double Bootstrap er blot en delmængde af, hvad der er derude, og er alle udviklet til at blive udført på allerede bootstrapped replikater af undersøgelsesdataene. Grundlæggende er der ingen metode til at få CIer og p-værdier, og underheden ender med at være mere en funktion af den valgte statistik, end det er en attribut for selve dataene.
Kommentarer
- Bootstrap kræver ikke, at prøver er uafhængige. Jeg mener, at dette skal udvides til et mere nyttigt svar. For eksempel er cluster bootstrap ikke ' t kræver individuelle observationer for at være uafhængige, men det kræver klynger at være! Bloker bootstrap til tidsserier er en mere interessant sag, men jeg ' er ikke sikker på, hvordan ' er asymptotisk berettiget (siger ikke det ' er ikke, bare siger det ' er ud over mig) . I det mindste kræver " vanille " bootstrap, de fleste mennesker tænker på , uafhængighed.
- @CliffAB Jeg vil argumentere for, at det er hensyn til effektivitet, men ikke nødvendigvis for slutning. Hvis du bruger ubetinget bootstrap i en prøve med korrelation og estimerer GLS-parametrene i hver underprøve, bliver estimaterne mere varierede på grund af den ekstra variation i klyngestørrelse, men ingen anden indvirkning. Blokeret bootstrap ville forbedre effektiviteten.
- Jeg ' er bange for, at jeg ikke ' ikke forstår din kommentar: hvis du ignorerede korrelationerne inden for klynger og stikprøven af de enkelte enheder i stedet for blokke, ville dit bootstrap-estimat af standardfejlen (for eksempel) have en enorm bias og ikke være en ensartet estimator. Således ville slutning være ugyldig.
- @CliffAB ved hjælp af en vægtet bootstrap til at estimere mellem- eller inden for klyngevariant har bestemt de samme attraktive træk som at udføre en vægtet prøve. Men jeg vil sige i dit tilfælde, at du bruger den forkerte variansestimator. GLS-variansestimatoren skal bruges i bootstrapped-prøven.
- Nu er jeg ' mere forvirret: hvorfor skulle du bruge GLS-variansestimatoren i stedet for at bruge bootstrap skøn over standardfejlene? Til reference henviser jeg ' til at bruge en klynge bootstrap til at adressere korrelerede prøver, dvs. da.wikipedia.org/wiki/ …
Svar
Dette kan være relateret til det faktum, at bootstrap undertiden kan præsenteres groft som en “antagelsesfri” procedure, der kan bruges til at erstatte andre almindelige f.eks. test, når deres krævede antagelser (f.eks. normalitet) ikke er opfyldt. Bootstrapping er dog kun relevant i visse situationer, hvor der antages antagelser, som også skal opfyldes.