To måder at bruge bootstrap til at estimere konfidensintervallet for koefficienter i regression

Jeg anvender en lineær model på mine data: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Jeg vil estimere koefficienternes ($ \ beta_ {0} $, $ \ beta_ {1} $) konfidensinterval (CI) ved hjælp af bootstrap-metoden. Der er to måder, hvorpå jeg kan anvende bootstrap-metoden:

  1. Prøveparret respons-forudsigende: Prøve tilfældigt par på $ y_ {i} -x_ {i} $ tilfældigt og anvend lineær regression til hvert løb. Efter $ m $ kørsler opnår vi en samling af estimerede koefficienter $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Til sidst skal du beregne kvantilen på $ {\ hat {\ beta_ {j}}} $.

  2. Prøvefejl: Anvend først lineær regression på de oprindelige observerede data fra denne model vi får $ \ hat {\ beta_ {o}} $ og fejlen $ \ epsilon_ {i} $. Bagefter skal du tilfældigt prøveprøve fejlen $ \ epsilon ^ {*} _ {i} $ og beregne de nye data med $ \ hat {\ beta_ {o}} $ og $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Anvend endnu en gang lineær regression. Efter $ m $ -kørsler opnår vi en samling af estimerede koefficeints $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Til sidst skal du beregne kvantilen på $ {\ hat {\ beta_ {j}}} $.

Mine spørgsmål er:

  • Hvordan er disse to metoder forskellige?
  • Under hvilken antagelse er disse to metoder, der giver det samme resultat?

Kommentarer

  • Jeg bruger personligt ikke nogen af dem som standardmetode, men vil i stedet anbefale det grundlæggende bootstrap-tillidsinterval. Se s. 8 i www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Jeg ‘ har lavet mange simuleringer til den binære logistikmodel og har set bedre konfidensinterval dækning ved hjælp af den grundlæggende bootstrap end ved hjælp af percentilen eller BCa bootstrap.
  • @FrankHarrell for at være klar, ved ” basic ” henviser du til den ikke-parametriske bootstrap?
  • (1) er ikke-parametrisk konfidensinterval for bootstrap-percentilen, ikke den grundlæggende bootstrap. Bemærk, at sampling fra $ (x, y) $ er den ubetingede bootstrap, som er mere antagelsesfri end den betingede bootstrap, der genprøver restprodukter.
  • I ‘ m virkelig ikke en ekspert, men så vidt jeg forstår det, kaldes 1) ofte ” case-resampling ” hvorimod 2) kaldes ” resterende sampling ” eller ” fast- $ x $ ” resampling. Det grundlæggende valg af metoden indebærer ikke ‘ t metoden til, hvordan konfidensintervaller beregnes efter proceduren. Jeg fik disse oplysninger hovedsageligt fra tutorial af John Fox . Så vidt jeg ser det, kan du efter begge bootstrap beregne de grundlæggende bootstrap CIer (f.eks. Med boot.ci(my.boot, type="basic") i R). Eller savner jeg noget her?
  • Ja, du kan lave klynge bootstrapping. Dette er implementeret i funktionerne R rms validate og calibrate.

Svar

Hvis respons-forudsigelsesparrene er opnået fra en population ved stikprøve, er det sikkert at bruge store / små bogstaver -x / din første genudtagningsplan. Hvis forudsigere blev kontrolleret for, eller værdierne for forudsigerne blev indstillet af eksperimentatoren, kan du overveje at bruge rest- / modelbaseret / fast-x / dit andet resampling-skema.

Hvordan adskiller de to sig? En introduktion til bootstrap med applikationer i R af Davison og Kounen har en diskussion, der er relevant for dette spørgsmål (se s.9). Se også R-koden i dette appendiks af John Fox , fungerer især boot.huber på s.5 for random-x-skemaet og boot.huber.fixed på s.10 for den faste x-ordning. Mens i forelæsningsnotater af Shalizi anvendes de to ordninger på forskellige datasæt / problemer, viser Foxs appendiks, hvor lille forskel de to ordninger ofte kan gøre.

Hvornår kan de to forventes at levere næsten identiske resultater? En situationen er, hvor regressionsmodellen er korrekt specificeret, f.eks. er der ingen umodelleret ikke-linearitet, og de sædvanlige regressionsantagelser (f.eks. iid-fejl, ingen outliers) er opfyldt. Se kapitel 21 i Foxs bog (hvor ovennævnte tillæg med R-koden indirekte hører hjemme), især diskussionen på side 598 og øvelse 21.3. med titlen “Tilfældig versus fast resampling i regression”.For at citere fra bogen

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

Du vil også lære af denne diskussion, hvorfor fixed-x bootstrap implicit antager, at modelens funktionelle form er korrekt (selvom der antages ingen antagelse om formen af fejlfordelingen).

Se også slide 12 i denne tale for Society Of Actuaries in Ireland af Derek Bain. Det har også en illustration af, hvad der skal betragtes som “det samme resultat”:

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *