Kaksi tapaa käyttää käynnistyshihnaa kertoimien luottamusvälin arvioimiseksi regressiossa

Sovellan lineaarista mallia tietoihini: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Haluan arvioida kertoimien ($ \ beta_ {0} $, $ \ beta_ {1} $) luottamusvälin (CI) käynnistysmenetelmällä. Käynnistysmenetelmää voidaan soveltaa kahdella tavalla:

  1. Esimerkki pariliitetystä vastausennusteesta: Ota näytteeksi satunnaisesti parit $ y_ {i} -x_ {i} $ ja käytä lineaarista regressio jokaiselle ajolle. Kun $ m $ on suoritettu, saadaan kokoelma arvioituja kertoimia $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Laske lopuksi $ {\ hat {\ beta_ {j}}} $: n kvantiili.

  2. Esimerkki virhe: Käytä ensin lineaarista regressiota alkuperäisestä havaitusta datasta, tästä mallista saamme $ \ hat {\ beta_ {o}} $ ja virheen $ \ epsilon_ {i} $. Muodosta sen jälkeen virheellisesti $ \ epsilon ^ {*} _ {i} $ ja laske uudet tiedot näppäimillä $ \ hat {\ beta_ {o}} $ ja $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Käytä jälleen lineaarista regressiota. Kun $ m $ on suoritettu, saadaan kokoelma arvioituja coefficeints $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Laske lopuksi $ {\ hat {\ beta_ {j}}} $: n kvantiili.

Kysymykseni ovat:

  • Miten nämä kaksi menetelmää eroavat toisistaan?
  • Missä oletuksissa nämä kaksi menetelmää tuottavat saman tuloksen?

Kommentit

  • En henkilökohtaisesti käyttäisi kumpaakaan oletusmenetelmänä, mutta suosittelen sen sijaan käynnistysstrapin perusvarmuusväliä. Katso s. 8 / www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Olen ’ tehnyt paljon simulaatioita binaarilogistiselle mallille ja olen nähnyt paremman luottamusvälin peiton käyttämällä tavallista käynnistyshihnaa kuin prosenttipistettä tai BCa-käynnistyshihnaa.
  • @FrankHarrell selväksi, kirjoittamalla ” basic ” viittaat ei-parametriseen käynnistysvyöhön?
  • (1) on bootstrap-prosenttipisteen ei-parametrinen luottamusväli, ei peruskäynnistysprosentti. Huomaa, että näytteenotto $ (x, y) $: sta on ehdoton käynnistyshihna, joka on oletuksettomampi kuin ehdollinen käynnistyshihna, joka kerää jäännökset uudelleen.
  • I ’ En todellakaan ole asiantuntija, mutta sikäli kuin ymmärrän sen, 1) kutsutaan usein ” case-resampling ” kun taas 2) kutsutaan ” jäännösnäytteenotoksi ” tai ” kiinteä- $ x $ ” uudelleennäyte. Menetelmän perusvaihtoehto ei tarkoita menetelmää, kuinka lasketaan luottamusvälit toimenpiteen jälkeen. Sain nämä tiedot lähinnä John Foxin opetusohjelmasta . Sikäli kuin näen sen, kumpikin käynnistyshihnan jälkeen voit laskea peruskäynnistyksen CI: t (esim. boot.ci(my.boot, type="basic") -kohdassa R). Vai kaipaanko mitään täällä?
  • Kyllä, voit tehdä klusterin käynnistämisen. Tämä toteutetaan R rms validate – ja calibrate -toiminnoissa.

vastaus

Jos vaste-ennustinparit on saatu populaatiosta satunnaisotoksella, on turvallista käyttää tapaus / satunnainen -x / ensimmäinen-näytteenottomenetelmä. Jos ennakoijia kontrolloitiin tai kokeilija asetti ennustajien arvot, voit harkita jäännös- / mallipohjaisen / kiinteän x / sekunnin uudelleen näytteenottomenetelmän käyttöä.

Miten nämä kaksi eroavat toisistaan? Davisonin ja Kounenin johdatus bootstrapiin, jossa on sovelluksia R: ssä , on aiheeseen liittyvä keskustelu (katso s.9). Katso myös R-koodi tässä John Foxin lisäyksessä . Funktiot boot.huber ovat sivulla 5. Satunnainen-x-malli ja boot.huber.fixed s.10 kiinteän x-mallille. Vaikka Shalizin luentomerkinnöissä näitä kahta järjestelmää sovelletaan eri aineistoihin / ongelmiin, Foxin liite kuvaa kuinka pieni ero näillä kahdella järjestelmällä voi olla usein.

Milloin näiden kahden voidaan odottaa tuottavan lähes identtisiä tuloksia? Yksi Tilanne on, kun regressiomalli on määritetty oikein, esim. ei ole mallinnamatonta epälineaarisuutta ja tavanomaiset regressiolettamukset (esim. iid-virheet, ei poikkeamia) täyttyvät. Katso Foxin kirja (johon yllä mainittu R-koodin liite kuuluu epäsuorasti), erityisesti keskustelu sivulla 598 ja harjoitus 21.3. otsikolla ”Satunnainen vs. kiinteä resamplointi regressiossa”.Lainaten kirjasta

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

Opit myös tästä keskustelusta, miksi kiinteän x-käynnistyshihna implisiittisesti olettaa, että mallin toiminnallinen muoto on oikea (vaikka virheen jakautumisen muodosta ei oleteta).

Katso myös tämän keskustelun dia 12 Society of Actuaries in Ireland, Derek Bain. Siinä on myös kuva siitä, mitä pidetään ”samana tuloksena”:

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *