Två sätt att använda bootstrap för att uppskatta konfidensintervallet för koefficienter i regression

Jag tillämpar en linjär modell på mina data: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Jag skulle vilja uppskatta konfidensintervallet (CI) för koefficienterna ($ \ beta_ {0} $, $ \ beta_ {1} $) med hjälp av bootstrap-metoden. Det finns två sätt som jag kan använda bootstrap-metoden:

  1. Provparad svarsprediktor: Slumpmässigt sampla par på $ y_ {i} -x_ {i} $ och använd linjär regression till varje körning. Efter $ m $ körningar får vi en samling uppskattade koefficienter $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Slutligen beräkna kvantilen på $ {\ hat {\ beta_ {j}}} $.

  2. Exempelfel: Tillämpa först linjär regression på de ursprungliga observerade data från denna modell vi får $ \ hat {\ beta_ {o}} $ och felet $ \ epsilon_ {i} $. Därefter samplar du slumpmässigt felet $ \ epsilon ^ {*} _ {i} $ och beräknar de nya uppgifterna med $ \ hat {\ beta_ {o}} $ och $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Tillämpa återigen linjär regression. Efter $ m $ körningar får vi en samling uppskattade koefficeintryck $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Slutligen beräkna kvantilen på $ {\ hat {\ beta_ {j}}} $.

Mina frågor är:

  • Hur är dessa två metoder olika?
  • Under vilket antagande ger dessa två metoder samma resultat?

Kommentarer

  • Jag skulle personligen inte använda endera som standardmetod utan istället rekommendera det grundläggande bootstrap-konfidensintervallet. Se s. 8 i www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Jag ’ har gjort många simuleringar för den binära logistikmodellen och har sett bättre konfidensintervall täckning med grundläggande bootstrap än att använda percentilen eller BCa bootstrap.
  • @FrankHarrell för att vara tydlig, med ” grundläggande ” hänvisar du till den icke-parametriska startremmen?
  • (1) är det icke-parametriska konfidensintervallet för bootstrap, inte den grundläggande bootstrap. Observera att provtagning från $ (x, y) $ är den ovillkorliga bootstrap, vilket är mer antagandefri än den villkorliga bootstrap som samplar rester.
  • I ’ jag är verkligen ingen expert, men såvitt jag förstår kallas det 1) ofta ” case-resampling ” medan 2) kallas ” kvarvarande sampling ” eller ” fast- $ x $ ” omprovtagning. Det grundläggande valet av metoden betyder inte ’ t innebär metoden för hur man beräknar konfidensintervall efter proceduren. Jag fick den här informationen huvudsakligen från tutorial av John Fox . Så vitt jag ser det, efter endera bootstrap, kan du beräkna de grundläggande bootstrap-CI: erna (t.ex. med boot.ci(my.boot, type="basic") i R). Eller saknar jag något här?
  • Ja, du kan göra kluster bootstrapping. Detta implementeras i funktionerna R rms validate och calibrate.

Svar

Om svar-prediktorpar har erhållits från en population genom slumpmässigt urval, är det säkert att använda case / random -x / ditt första samplingsschema. Om prediktorer kontrollerades för, eller värdena för prediktorerna sattes av experimentet, kan du överväga att använda återstående / modellbaserade / fixerade-x / din andra omprovningsplan.

Hur skiljer sig de två mellan sig? En introduktion till bootstrap med applikationer i R av Davison och Kounen har en diskussion som är relevant för denna fråga (se s.9). Se även R-koden i den här bilagan av John Fox , fungerar särskilt boot.huber på s.5 för random-x-schemat och boot.huber.fixed på s.10 för fix-x-schemat. Medan i föreläsningsanteckningar av Shalizi tillämpas de två scheman på olika datamängder / problem, illustrerar Foxs bilaga hur liten skillnad de två scheman ofta kan göra.

När kan de två förväntas leverera nästan identiska resultat? En situationen är när regressionsmodellen är korrekt specificerad, t.ex. finns det ingen omodellerad olinjäritet och de vanliga regressionsantagandena (t.ex. iid-fel, inga outliers) är uppfyllda. Se kapitel 21 i Fox bok (där ovannämnda bilaga med R-koden indirekt hör hemma), särskilt diskussionen på sidan 598 och övning 21.3. med titeln ”Slumpmässigt kontra fast återprov i regression”.För att citera från boken

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

Du kommer också att lära av den diskussionen varför fixed-x bootstrap implicit antar att modellens funktionella form är korrekt (även om inget antagande görs om felfördelningens form).

Se även bild 12 i detta föredrag för Society Of Actuaries in Ireland av Derek Bain. Den har också en illustration av vad som ska betraktas som ”samma resultat”:

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *