Jag tillämpar en linjär modell på mina data: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$
Jag skulle vilja uppskatta konfidensintervallet (CI) för koefficienterna ($ \ beta_ {0} $, $ \ beta_ {1} $) med hjälp av bootstrap-metoden. Det finns två sätt som jag kan använda bootstrap-metoden:
-
Provparad svarsprediktor: Slumpmässigt sampla par på $ y_ {i} -x_ {i} $ och använd linjär regression till varje körning. Efter $ m $ körningar får vi en samling uppskattade koefficienter $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Slutligen beräkna kvantilen på $ {\ hat {\ beta_ {j}}} $.
-
Exempelfel: Tillämpa först linjär regression på de ursprungliga observerade data från denna modell vi får $ \ hat {\ beta_ {o}} $ och felet $ \ epsilon_ {i} $. Därefter samplar du slumpmässigt felet $ \ epsilon ^ {*} _ {i} $ och beräknar de nya uppgifterna med $ \ hat {\ beta_ {o}} $ och $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Tillämpa återigen linjär regression. Efter $ m $ körningar får vi en samling uppskattade koefficeintryck $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Slutligen beräkna kvantilen på $ {\ hat {\ beta_ {j}}} $.
Mina frågor är:
- Hur är dessa två metoder olika?
- Under vilket antagande ger dessa två metoder samma resultat?
Kommentarer
Svar
Om svar-prediktorpar har erhållits från en population genom slumpmässigt urval, är det säkert att använda case / random -x / ditt första samplingsschema. Om prediktorer kontrollerades för, eller värdena för prediktorerna sattes av experimentet, kan du överväga att använda återstående / modellbaserade / fixerade-x / din andra omprovningsplan.
Hur skiljer sig de två mellan sig? En introduktion till bootstrap med applikationer i R av Davison och Kounen har en diskussion som är relevant för denna fråga (se s.9). Se även R-koden i den här bilagan av John Fox , fungerar särskilt boot.huber på s.5 för random-x-schemat och boot.huber.fixed på s.10 för fix-x-schemat. Medan i föreläsningsanteckningar av Shalizi tillämpas de två scheman på olika datamängder / problem, illustrerar Foxs bilaga hur liten skillnad de två scheman ofta kan göra.
När kan de två förväntas leverera nästan identiska resultat? En situationen är när regressionsmodellen är korrekt specificerad, t.ex. finns det ingen omodellerad olinjäritet och de vanliga regressionsantagandena (t.ex. iid-fel, inga outliers) är uppfyllda. Se kapitel 21 i Fox bok (där ovannämnda bilaga med R-koden indirekt hör hemma), särskilt diskussionen på sidan 598 och övning 21.3. med titeln ”Slumpmässigt kontra fast återprov i regression”.För att citera från boken
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling.
Du kommer också att lära av den diskussionen varför fixed-x bootstrap implicit antar att modellens funktionella form är korrekt (även om inget antagande görs om felfördelningens form).
Se även bild 12 i detta föredrag för Society Of Actuaries in Ireland av Derek Bain. Den har också en illustration av vad som ska betraktas som ”samma resultat”:
The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent.
boot.ci(my.boot, type="basic")
iR
). Eller saknar jag något här?rms
validate
ochcalibrate
.