Dva způsoby použití bootstrapu k odhadu intervalu spolehlivosti koeficientů v regresi

Aplikuji na svá data lineární model: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Chtěl bych odhadnout interval spolehlivosti (CI) koeficientů ($ \ beta_ {0} $, $ \ beta_ {1} $) pomocí metody bootstrap. Existují dva způsoby, jak mohu použít metodu bootstrap:

Ukázka spárovaného prediktoru odezvy: Náhodně převzorkovat páry $ y_ {i} -x_ {i} $ a použít lineární regrese ke každému běhu. Po spuštění $ m $ získáme kolekci odhadovaných koeficientů $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Nakonec spočítejte kvantil $ {\ hat {\ beta_ {j}}} $.
Ukázková chyba: Nejprve použijte lineární regrese na původní pozorovaná data z tohoto modelu získáme $ \ hat {\ beta_ {o}} $ a chybu $ \ epsilon_ {i} $. Poté náhodně převzorkujte chybu $ \ epsilon ^ {*} _ {i} $ a spočítejte nová data pomocí $ \ hat {\ beta_ {o}} $ a $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Použijte opět lineární regresi. Po spuštění $ m $ získáme sbírku odhadovaných koeficientů $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Nakonec spočítejte kvantil $ {\ hat {\ beta_ {j}}} $.

Moje otázky jsou:

Jak se tyto dvě metody liší?
Za jakého předpokladu jsou tyto dvě metody poskytující stejný výsledek?

Komentáře

Osobně bych jako výchozí přístup nepoužíval ani jeden, ale místo toho bych doporučil základní interval spolehlivosti bootstrapu. Prosáknout. 8 z www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. ' Provádím spoustu simulací pro binární logistický model a zaznamenal jsem lepší pokrytí intervalem spolehlivosti pomocí základního bootstrapu než pomocí percentilu nebo BCa bootstrap.
@FrankHarrell, aby bylo jasno, " basic " odkazujete na neparametrický bootstrap?
(1) je percentuální neparametrický interval spolehlivosti bootstrapu, nikoli základní bootstrap. Všimněte si, že vzorkování z $ (x, y) $ je bezpodmínečný bootstrap, který je bez předpokladů než podmíněný bootstrap, který přebírá vzorky zbytků.
I ' m opravdu není odborník, ale pokud tomu rozumím, 1) se často nazývá " case-resampling " zatímco 2) se nazývá " zbytkové převzorkování " nebo " fixed- $ x $ " převzorkování. Základní volba metody ' neimplikuje metodu výpočtu intervalů spolehlivosti po ukončení procedury. Tyto informace jsem získal hlavně z tutoriálu Johna Foxe . Pokud to vidím, po každém bootstrapu můžete vypočítat základní bootstrap CI (např. S boot.ci(my.boot, type="basic") v R). Nebo mi tu něco chybí?
Ano, můžete provést bootstrapping clusteru. To je implementováno ve funkcích R rms validate a calibrate.

Odpověď

Pokud byly páry odpovědí a prediktorů získány z populace náhodným výběrem, je bezpečné použít case / random -x / vaše první schéma převzorkování. Pokud byly prediktory kontrolovány, nebo byly hodnoty prediktorů nastaveny experimentátorem, můžete zvážit použití reziduálního / modelového / fixního-x / vašeho druhého schématu převzorkování.

Jak se tyto dva liší? Úvod do bootstrapu s aplikacemi v R od Davisona a Kounena má diskusi týkající se této otázky (viz str. 9). Viz také R kód v této příloze od Johna Foxe , zejména funkce boot.huber na str.5 pro schéma random-x a boot.huber.fixed na str.10 pro schéma fixed-x. Zatímco v přednáškách Shaliziho jsou tato dvě schémata aplikována na různé datové sady / problémy, dodatek Foxe ilustruje, jak malý rozdíl mohou tato dvě schémata často dělat.

Kdy lze očekávat, že tyto dva výsledky přinesou téměř stejné výsledky? Jeden situace je, když je regresní model správně zadán, např. neexistuje nemodelovaná nelinearita a jsou splněny obvyklé předpoklady regrese (např. chyby iid, žádné odlehlé hodnoty). Viz kapitola 21 z Foxova kniha (do které nepřímo patří výše uvedená příloha s R kódem), zejména diskuse na straně 598 a cvičení 21.3. s názvem „Náhodné versus pevné převzorkování v regresi“.Citovat z knihy

By randomly reattaching resampled residuals to ﬁtted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reﬂected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling.

Z diskuse se také dozvíte, proč bootstrap fixed-x implicitně předpokládá, že funkční forma modelu je správná (i když není učiněn žádný předpoklad o tvaru rozdělení chyb).

Viz také snímek 12 této přednášky pro společnost aktuárů v Irsku od Derek Bain. Má také ilustraci toho, co by mělo být považováno za „stejný výsledek“:

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent.

Komentáře

Odpověď

Napsat komentář Zrušit odpověď na komentář