Ve wikipedii o nevýhodě bootstrapu se píše:
Zjevná jednoduchost může zakrýt skutečnost, že při provádění bootstrap analýzy (např. nezávislost vzorků) se vytvářejí důležité předpoklady, kde by byly formálněji uvedeny v jiných přístupech.
Mohli byste, prosím, vysvětlit toto tvrzení?
Komentáře
- Související: Proč má můj interval bootstrapu hrozné pokrytí?
- Tomuto prohlášení prostě nerozumím.
- Ukázky procedury bootstrap jsou závislé, ale získané vzorkování s distribucí se zachází, jako by byla vytvořena hodnotami iid.
Odpověď
-
It „s wiki, přečtěte si všechny wiki s rezervou. Měli byste označit vlajku jako nejasnou, založenou na mínění nebo vyžadující citaci, protože všechny z nich jsou (částečně) pravdivé. Je třeba vládnout nedávnému přílivu lidí ve statistikách, kteří mají pocit, že lze dělat a papouškovat široká tvrzení bez formálního důkazu (já se do toho prohlášení zahrnuji).
-
nevyžaduje vyžaduje, aby vzorky byly nezávislé. Existují speciální procedury bootstrappingu, které jsou efektivnější než bezpodmínečný bootstrap
-
V článku je kritický klam konflaci postupu generování bootstrap replikátů datová sada (která má žádné předpoklady) a získání bootstrapových intervalů / hodnot p pro statistiku testu. Metody BCa, Quantile, Normal Percentile a Double Bootstrap jsou jen podmnožinou toho, co je venku, a jsou všechny vyvinuty tak, aby byly prováděny na již bootstrapovaných replikách dat ze studie. V zásadě neexistuje žádná metoda pro získání CI a hodnoty p a podivnost nakonec bude spíše funkcí zvolené statistiky než atributem samotných dat.
Komentáře
- Bootstrap nevyžaduje, aby vzorky byly nezávislé. Myslím, že by to mělo být rozšířeno o užitečnější odpověď. Například bootstrap klastru ' Nevyžaduje individuální pozorování , aby byla nezávislá, ale vyžaduje to, aby byly klastry! Blokovací bootstrap pro časové řady je zajímavějším případem, ale já ' nejsem si jistý, jak to ' s asymptoticky odůvodněno (neříkat to ' ne, prostě to říkat ' s mimo mě) . Minimálně " vanilkový " bootstrap, který si většina lidí myslí, vyžaduje vyžaduje nezávislost.
- @CliffAB Tvrdil bych, že jde o úvahy o efektivitě, ale ne nutně o odvození. Pokud použijete bezpodmínečný bootstrap ve vzorku s korelací a odhadnete parametry GLS v každém dílčím vzorku, odhady se stanou mnohem rozmanitějšími kvůli přidané variabilitě ve velikosti klastru, ale žádný další dopad. Blokovaný bootstrap by zlepšil efektivitu.
- Obávám se, že nerozumím vašemu komentáři: pokud jste jej ignorovali ' korelace v klastrech a vzorkované jednotlivé jednotky místo bloků, váš bootstrap odhad standardní chyby (například) by měl velkou odchylku a nebyl by konzistentním odhadcem. Odvod by tedy byl neplatný.
- @CliffAB pomocí váženého bootstrapu k odhadu rozptylu mezi nebo uvnitř klastru má určitě stejné atraktivní rysy jako provedení váženého vzorku. Ale ve vašem případě bych řekl, že používáte nesprávný odhad variance. Odhad variance GLS by měl být použit v zaváděcím vzorku.
- Nyní jsem ' m zmatenější: proč byste místo odhrnovacího bootstrapu používali odhad variance GLS? odhad standardních chyb? Pro informaci odkazuji ' na použití bootstrapu clusteru k řešení korelovaných vzorků, tj. en.wikipedia.org/wiki/ …
Odpověď
Může to být souvisí se skutečností, že bootstrap může být někdy zhruba prezentován jako „předpoklad bez“ postupu, který lze použít k nahrazení jiných běžných např. testy, pokud nejsou splněny jejich požadované předpoklady (např. normálnost). Bootstrapping je však relevantní pouze v určitých situacích, které zvyšují předpoklady, které také musí být splněny.