To måter å bruke bootstrap for å estimere konfidensintervallet til koeffisienter i regresjon

Jeg bruker en lineær modell på dataene mine: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Jeg vil estimere konfidensintervallet (CI) for koeffisientene ($ \ beta_ {0} $, $ \ beta_ {1} $) ved hjelp av bootstrap-metoden. Det er to måter jeg kan bruke bootstrap-metoden på:

  1. Eksempel på parret respons-prediktor: Tilfeldig sampler par på $ y_ {i} -x_ {i} $ tilfeldig, og bruk lineær regresjon til hvert løp. Etter $ m $ kjører får vi en samling av estimerte koeffisienter $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Til slutt beregner du kvantilen til $ {\ hat {\ beta_ {j}}} $.

  2. Eksempelfeil: Bruk først lineær regresjon på de opprinnelige observerte dataene fra denne modellen vi får $ \ hat {\ beta_ {o}} $ og feilen $ \ epsilon_ {i} $. Etterpå prøver du tilfeldig på nytt feilen \ \ epsilon ^ {*} _ {i} $ og beregner de nye dataene med $ \ hat {\ beta_ {o}} $ og $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Påfør igjen lineær regresjon. Etter $ m $ kjøringer får vi en samling av estimerte koeffisient $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Til slutt beregner du kvantilen på $ {\ hat {\ beta_ {j}}} $.

Mine spørsmål er:

  • Hvordan er disse to metodene forskjellige?
  • Under hvilken antagelse er disse to metodene som gir det samme resultatet?

Kommentarer

  • Jeg vil personlig ikke bruke begge som standardtilnærming, men i stedet anbefale det grunnleggende bootstrap-konfidensintervallet. Se s. 8 av www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Jeg ‘ har gjort mange simuleringer for den binære logistikkmodellen, og har sett bedre konfidensintervalldekning ved hjelp av grunnleggende bootstrap enn ved bruk av persentilen eller BCa bootstrap.
  • @FrankHarrell for å være tydelig, ved » basic » refererer du til den ikke-parametriske bootstrap?
  • (1) er bootstrap-persentilen, ikke-parametrisk konfidensintervall, ikke den grunnleggende bootstrap. Vær oppmerksom på at prøvetaking fra $ (x, y) $ er den ubetingede bootstrap, som er mer antagelsesfri enn den betingede bootstrap som sampler rester.
  • I ‘ Jeg er egentlig ikke ekspert, men så vidt jeg forstår det, blir 1) ofte kalt » case-resampling » mens 2) kalles » gjenværende sampling » eller » fast- $ x $ » resampling. Det grunnleggende valget av metoden innebærer ikke ‘ t metoden for hvordan man skal beregne konfidensintervallene etter prosedyren. Denne informasjonen fikk jeg hovedsakelig fra opplæringen til John Fox . Så vidt jeg ser det, kan du etter begge bootstrap beregne de grunnleggende bootstrap-CI-ene (f.eks. Med boot.ci(my.boot, type="basic") i R). Eller savner jeg noe her?
  • Ja, du kan gjøre cluster bootstrapping. Dette implementeres i funksjonene R rms validate og calibrate.

Svar

Hvis svar-prediktorparene er oppnådd fra en populasjon ved et tilfeldig utvalg, er det trygt å bruke case / random -x / din første prøvetakingsplan. Hvis prediktorer ble kontrollert for, eller verdiene til prediktorene ble satt av eksperimentatoren, kan du vurdere å bruke gjenværende / modellbasert / fast-x / ditt andre samplingsskjema.

Hvordan skiller de to seg? En introduksjon til bootstrap med applikasjoner i R av Davison og Kounen har en diskusjon som er relevant for dette spørsmålet (se s.9). Se også R-koden i dette vedlegget av John Fox , spesielt funksjonene boot.huber på s.5 for random-x-ordningen og boot.huber.fixed på s.10 for fast-x-ordningen. Mens det i forelesningsnotater av Shalizi de to ordningene brukes på forskjellige datasett / problemer, illustrerer Foxs vedlegg hvor liten forskjell de to ordningene ofte kan utgjøre.

Når kan de to forventes å levere nesten identiske resultater? En situasjonen er når regresjonsmodellen er riktig spesifisert, for eksempel er det ingen umodellert ikke-linearitet og de vanlige regresjonsantagelsene (f.eks. iid-feil, ingen outliers) er oppfylt. Se kapittel 21 Foxs bok (der nevnte vedlegg med R-koden indirekte hører hjemme), spesielt diskusjonen på side 598 og øvelse 21.3. med tittelen «Tilfeldig versus fast resampling i regresjon».For å sitere fra boka

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

Du vil også lære av den diskusjonen hvorfor fixed-x bootstrap implisitt antar at modellens funksjonelle form er riktig (selv om det antas ingen form for feilfordelingen).

Se også lysbilde 12 i denne foredraget for Society Of Actuaries in Ireland av Derek Bain. Den har også en illustrasjon av hva som skal betraktes som «samme resultat»:

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *