Aplic un model liniar la datele mele: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$
Aș dori să estimez intervalul de încredere (CI) al coeficienților ($ \ beta_ {0} $, $ \ beta_ {1} $) folosind metoda bootstrap. Există două modalități prin care pot aplica metoda bootstrap:
-
Exemplu de răspuns-predictor asociat: eșantionați aleatoriu perechi de $ y_ {i} -x_ {i} $ și aplicați liniar regresie la fiecare alergare. După rulări de $ m $, obținem o colecție de coeficienți estimați $ {\ hat {\ beta_ {j}}}, j = 1, … m $. În cele din urmă, calculați cuantumul $ {\ hat {\ beta_ {j}}} $.
-
Eroare eșantion: aplicați mai întâi regresia liniară pe datele originale observate, din acest model obținem $ \ hat {\ beta_ {o}} $ și eroarea $ \ epsilon_ {i} $. Ulterior, eșantionați aleatoriu eroarea $ \ epsilon ^ {*} _ {i} $ și calculați noile date cu $ \ hat {\ beta_ {o}} $ și $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Aplicați încă o dată regresia liniară. După rulări de $ m $, obținem o colecție de coeficiențe estimate $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. În cele din urmă, calculați cuantumul de $ {\ hat {\ beta_ {j}}} $.
Întrebările mele sunt:
- Cum sunt aceste două metode diferite?
- Sub care presupunere aceste două metode dau același rezultat?
Comentarii
Răspuns
Dacă perechile răspuns-predictor au fost obținute dintr-o populație prin eșantion aleatoriu, este sigur să utilizați caz / aleatoriu -x / prima ta schemă de eșantionare. Dacă predictorii au fost controlați sau valorile predictorilor au fost stabilite de experimentator, puteți lua în considerare utilizarea schemei de eșantionare reziduală / bazată pe model / fix-x / a doua ta.
Cum diferă cele două? O introducere la bootstrap cu aplicații în R de Davison și Kounen are o discuție pertinentă asupra acestei întrebări (vezi p.9). A se vedea, de asemenea, codul R din această anexă de John Fox , în special funcțiile boot.huber la p.5 pentru schema random-x și boot.huber.fixed on p.10 pentru schema fix-x. În timp ce în notele de lectură ale lui Shalizi cele două scheme sunt aplicate seturilor de date / problemelor diferite, anexa Fox ilustrează cât de puțină diferență pot face adesea cele două scheme.
Când se poate aștepta ca cei doi să ofere rezultate aproape identice? One situația este atunci când modelul de regresie este corect specificat, de exemplu, nu există neliniaritate nemodelată și ipotezele obișnuite de regresie (de exemplu, erori iid, fără valori aberante) sunt îndeplinite. Vezi capitolul 21 din Cartea Fox (în care aparține anexa menționată mai sus cu codul R), în special discuția de la pagina 598 și exercițiul 21.3. intitulat „Reeșantionare aleatorie versus fixă în regresie”.Pentru a cita din carte
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling.
Veți afla, de asemenea, din acea discuție de ce fix-x bootstrap presupune implicit că forma funcțională a modelului este corectă (chiar dacă nu se face nicio presupunere cu privire la forma distribuției de erori).
Vezi și diapozitivul 12 al acestei discuții pentru Society Of Actuaries in Ireland de Derek Bain. De asemenea, are o ilustrare a ceea ce ar trebui considerat „același rezultat”:
The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent.
boot.ci(my.boot, type="basic")
înR
). Sau îmi lipsește ceva aici?rms
validate
șicalibrate
.