Două moduri de utilizare a bootstrap-ului pentru a estima intervalul de încredere al coeficienților în regresie

Aplic un model liniar la datele mele: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Aș dori să estimez intervalul de încredere (CI) al coeficienților ($ \ beta_ {0} $, $ \ beta_ {1} $) folosind metoda bootstrap. Există două modalități prin care pot aplica metoda bootstrap:

  1. Exemplu de răspuns-predictor asociat: eșantionați aleatoriu perechi de $ y_ {i} -x_ {i} $ și aplicați liniar regresie la fiecare alergare. După rulări de $ m $, obținem o colecție de coeficienți estimați $ {\ hat {\ beta_ {j}}}, j = 1, … m $. În cele din urmă, calculați cuantumul $ {\ hat {\ beta_ {j}}} $.

  2. Eroare eșantion: aplicați mai întâi regresia liniară pe datele originale observate, din acest model obținem $ \ hat {\ beta_ {o}} $ și eroarea $ \ epsilon_ {i} $. Ulterior, eșantionați aleatoriu eroarea $ \ epsilon ^ {*} _ {i} $ și calculați noile date cu $ \ hat {\ beta_ {o}} $ și $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Aplicați încă o dată regresia liniară. După rulări de $ m $, obținem o colecție de coeficiențe estimate $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. În cele din urmă, calculați cuantumul de $ {\ hat {\ beta_ {j}}} $.

Întrebările mele sunt:

  • Cum sunt aceste două metode diferite?
  • Sub care presupunere aceste două metode dau același rezultat?

Comentarii

  • Personal nu aș folosi nici ca abordare implicită, ci în schimb aș recomanda intervalul de încredere de bază bootstrap. Vezi p. 8 din www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Am ‘ efectuat o mulțime de simulări pentru modelul logistic binar și am văzut o acoperire mai bună a intervalului de încredere utilizând bootstrapul de bază decât folosind percentila sau bootstrap BCa.
  • @FrankHarrell să fie clar, de ” de bază ” vă referiți la bootstrap-ul non-parametric?
  • (1) este intervalul de încredere nonparametric percentil bootstrap, nu bootstrap de bază. Rețineți că eșantionarea de la $ (x, y) $ este bootstrapul necondiționat, care este mai lipsit de presupuneri decât bootstrap-ul condiționat care resamplează reziduurile.
  • I ‘ Nu sunt un expert, dar, din câte înțeleg, 1) este adesea numit ” re-eșantionare de cazuri ” în timp ce 2) se numește ” eșantionare reziduală ” sau ” fix- $ x $ ” eșantionare. Alegerea de bază a metodei nu ‘ nu implică metoda de calculare a intervalelor de încredere după procedură. Am primit aceste informații în principal din tutorialul lui John Fox . Din câte văd, după oricare dintre bootstrap, ați putea calcula CI-urile de bootstrap de bază (de exemplu, cu boot.ci(my.boot, type="basic") în R). Sau îmi lipsește ceva aici?
  • Da, puteți face bootstrapping în cluster. Acest lucru este implementat în funcțiile R rms validate și calibrate.

Răspuns

Dacă perechile răspuns-predictor au fost obținute dintr-o populație prin eșantion aleatoriu, este sigur să utilizați caz / aleatoriu -x / prima ta schemă de eșantionare. Dacă predictorii au fost controlați sau valorile predictorilor au fost stabilite de experimentator, puteți lua în considerare utilizarea schemei de eșantionare reziduală / bazată pe model / fix-x / a doua ta.

Cum diferă cele două? O introducere la bootstrap cu aplicații în R de Davison și Kounen are o discuție pertinentă asupra acestei întrebări (vezi p.9). A se vedea, de asemenea, codul R din această anexă de John Fox , în special funcțiile boot.huber la p.5 pentru schema random-x și boot.huber.fixed on p.10 pentru schema fix-x. În timp ce în notele de lectură ale lui Shalizi cele două scheme sunt aplicate seturilor de date / problemelor diferite, anexa Fox ilustrează cât de puțină diferență pot face adesea cele două scheme.

Când se poate aștepta ca cei doi să ofere rezultate aproape identice? One situația este atunci când modelul de regresie este corect specificat, de exemplu, nu există neliniaritate nemodelată și ipotezele obișnuite de regresie (de exemplu, erori iid, fără valori aberante) sunt îndeplinite. Vezi capitolul 21 din Cartea Fox (în care aparține anexa menționată mai sus cu codul R), în special discuția de la pagina 598 și exercițiul 21.3. intitulat „Reeșantionare aleatorie versus fixă în regresie”.Pentru a cita din carte

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

Veți afla, de asemenea, din acea discuție de ce fix-x bootstrap presupune implicit că forma funcțională a modelului este corectă (chiar dacă nu se face nicio presupunere cu privire la forma distribuției de erori).

Vezi și diapozitivul 12 al acestei discuții pentru Society Of Actuaries in Ireland de Derek Bain. De asemenea, are o ilustrare a ceea ce ar trebui considerat „același rezultat”:

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *