A bootstrap kétféle módja a regresszióban szereplő együtthatók konfidenciaintervallumának becslésére

Lineáris modellt alkalmazok az adataimra: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Szeretném megbecsülni az együtthatók ($ \ beta_ {0} $, $ \ beta_ {1} $) konfidenciaintervallumát (CI) bootstrap módszerrel. Kétféle módon alkalmazhatom a bootstrap módszert:

  1. Párosított válasz-előrejelző minta: Véletlenszerűen mintázzon át $ y_ {i} -x_ {i} $ párokat, és alkalmazzon lineárisan regresszió minden menethez. $ M $ futása után összegyűjtjük a becsült $ {\ hat {\ beta_ {j}}}, j = 1, … m $ együtthatók gyűjteményét. Végül számítsa ki a $ {\ hat {\ beta_ {j}}} $ kvantilisát.

  2. Minta hiba: Először alkalmazzon lineáris regressziót az eredeti megfigyelt adatokra, ebből a modellből megkapjuk a $ \ hat {\ beta_ {o}} $ -t és a $ \ epsilon_ {i} $ hibát. Ezután véletlenszerűen állítsa be a mintát a $ \ epsilon ^ {*} _ {i} $ hibából, és számítsa ki az új adatokat a $ \ hat {\ beta_ {o}} $ és $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Alkalmazzon még egyszer lineáris regressziót. A $ m $ futása után összegyűjtjük a becsült együtthatók $ {\ hat {\ beta_ {j}}}, j = 1, …, m $ összegyűjtését. Végül számítsa ki a $ {\ hat {\ beta_ {j}}} $ kvantilisát.

A kérdéseim a következők:

  • Hogyan különbözik ez a két módszer?
  • melyik feltételezés alapján adják meg ugyanazt az eredményt a két módszer?

Megjegyzések

  • Én személy szerint egyiket sem használnám alapértelmezett megközelítésként, hanem az alap bootstrap megbízhatósági intervallumot javasolnám. Lásd: A www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf 8. oldala. ‘ sok szimulációt végeztem a bináris logisztikai modellhez, és jobb konfidencia intervallum lefedettséget láttam az alap bootstrap használatával, mint a percentilis vagy a BCa bootstrap használatával.
  • @FrankHarrell legyen egyértelmű, ” basic ” által Ön a nem parametrikus indítópántra hivatkozik?
  • (1) a bootstrap százalékos nemparametrikus konfidenciaintervallum, nem pedig az alap bootstrap. Ne feledje, hogy a $ (x, y) $ értékből történő mintavétel a feltétel nélküli bootstrap, amely feltételezésektől mentesebb, mint a maradványokat újramintázó feltételes bootstrap.
  • I ‘ m valójában nem szakértő, de amennyire megértem, 1) gyakran nevezik ” eset-újravételezésnek “, míg a 2) ” maradék újravételezésnek nevezzük ” vagy ” fix- $ x $ ” újraminta. A módszer alapválasztása nem jelenti azt, hogy hogyan kell kiszámítani az eljárás utáni konfidenciaintervallumokat a div div id = “b5e5f75607”>

alapján. Ezeket az információkat főleg John Fox oktatóanyagából kaptam . Amennyire látom, bármelyik bootstrap után ki lehet számítani az alap bootstrap CI-ket (pl.boot.ci(my.boot, type="basic")aR-ban). Vagy hiányzik itt bármi?

  • Igen, megteheti a fürtbetöltést. Ez az R rms validate és calibrate függvényekben valósul meg.
  • Válasz

    Ha a válasz-előrejelző párokat véletlenszerű mintával nyertük egy populációból, akkor biztonságos a case / random -x / az első mintavételi séma. Ha a prediktorokat kontrollálták, vagy a prediktorok értékeit a kísérletező állította be, akkor fontolóra veheti a maradék / modell-alapú / fix-x / a másodperc újramintavételi séma használatát.

    Miben különböznek a kettő? Davison és Kounen bemutatja a bootstrap alkalmazást R -ben, és ezzel a kérdéssel foglalkozik (lásd: 9. o.). Lásd még az R kódot John Fox ezen függelékében , különösképpen a boot.huber funkciót működteti az 5. oldalon a random-x séma és a boot.huber.fixed után 10. o. a fix-x sémához. Míg a Shalizi előadásjegyzeteiben a két sémát különböző adatkészletekre / problémákra alkalmazzák, Fox függeléke azt szemlélteti, hogy a két séma milyen kis különbségeket okozhat gyakran. / p>

    Mikor várható a kettő közel azonos eredmények elérése? Egy az a helyzet, amikor a regressziós modell helyesen van megadva, pl. nincs modellezhetetlen nemlinearitás, és a szokásos regressziós feltételezések (pl. iid hibák, kiugró értékek nélkül) teljesülnek. Lásd: Fox könyve (amelybe a fent említett R kódú függelék közvetetten beletartozik), különös tekintettel az 598. oldalon található vitára és a 21.3. “Véletlenszerű és rögzített resampling a regresszióban” címmel.Idézni a könyvből

    By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

    Ebből a beszélgetésből azt is megtudhatja, hogy a fix-x rendszerindító program implicit módon feltételezi-e, hogy a modell funkcionális formája helyes (bár nincs feltételezés a hibaeloszlás alakjáról).

    Lásd még a beszélgetés 12. diáját az Society of Actuaries Írországban. Derek Bain. Azt is szemlélteti, hogy mit kell “ugyanazon eredménynek” tekinteni:

    The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

    Vélemény, hozzászólás?

    Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük