Aplikuji na svá data lineární model: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$
Chtěl bych odhadnout interval spolehlivosti (CI) koeficientů ($ \ beta_ {0} $, $ \ beta_ {1} $) pomocí metody bootstrap. Existují dva způsoby, jak mohu použít metodu bootstrap:
-
Ukázka spárovaného prediktoru odezvy: Náhodně převzorkovat páry $ y_ {i} -x_ {i} $ a použít lineární regrese ke každému běhu. Po spuštění $ m $ získáme kolekci odhadovaných koeficientů $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Nakonec spočítejte kvantil $ {\ hat {\ beta_ {j}}} $.
-
Ukázková chyba: Nejprve použijte lineární regrese na původní pozorovaná data z tohoto modelu získáme $ \ hat {\ beta_ {o}} $ a chybu $ \ epsilon_ {i} $. Poté náhodně převzorkujte chybu $ \ epsilon ^ {*} _ {i} $ a spočítejte nová data pomocí $ \ hat {\ beta_ {o}} $ a $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Použijte opět lineární regresi. Po spuštění $ m $ získáme sbírku odhadovaných koeficientů $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Nakonec spočítejte kvantil $ {\ hat {\ beta_ {j}}} $.
Moje otázky jsou:
- Jak se tyto dvě metody liší?
- Za jakého předpokladu jsou tyto dvě metody poskytující stejný výsledek?
Komentáře
Odpověď
Pokud byly páry odpovědí a prediktorů získány z populace náhodným výběrem, je bezpečné použít case / random -x / vaše první schéma převzorkování. Pokud byly prediktory kontrolovány, nebo byly hodnoty prediktorů nastaveny experimentátorem, můžete zvážit použití reziduálního / modelového / fixního-x / vašeho druhého schématu převzorkování.
Jak se tyto dva liší? Úvod do bootstrapu s aplikacemi v R od Davisona a Kounena má diskusi týkající se této otázky (viz str. 9). Viz také R kód v této příloze od Johna Foxe , zejména funkce boot.huber na str.5 pro schéma random-x a boot.huber.fixed na str.10 pro schéma fixed-x. Zatímco v přednáškách Shaliziho jsou tato dvě schémata aplikována na různé datové sady / problémy, dodatek Foxe ilustruje, jak malý rozdíl mohou tato dvě schémata často dělat.
Kdy lze očekávat, že tyto dva výsledky přinesou téměř stejné výsledky? Jeden situace je, když je regresní model správně zadán, např. neexistuje nemodelovaná nelinearita a jsou splněny obvyklé předpoklady regrese (např. chyby iid, žádné odlehlé hodnoty). Viz kapitola 21 z Foxova kniha (do které nepřímo patří výše uvedená příloha s R kódem), zejména diskuse na straně 598 a cvičení 21.3. s názvem „Náhodné versus pevné převzorkování v regresi“.Citovat z knihy
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling.
Z diskuse se také dozvíte, proč bootstrap fixed-x implicitně předpokládá, že funkční forma modelu je správná (i když není učiněn žádný předpoklad o tvaru rozdělení chyb).
Viz také snímek 12 této přednášky pro společnost aktuárů v Irsku od Derek Bain. Má také ilustraci toho, co by mělo být považováno za „stejný výsledek“:
The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent.
boot.ci(my.boot, type="basic")
vR
). Nebo mi tu něco chybí?rms
validate
acalibrate
.