Jeg bruker en lineær modell på dataene mine: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$
Jeg vil estimere konfidensintervallet (CI) for koeffisientene ($ \ beta_ {0} $, $ \ beta_ {1} $) ved hjelp av bootstrap-metoden. Det er to måter jeg kan bruke bootstrap-metoden på:
-
Eksempel på parret respons-prediktor: Tilfeldig sampler par på $ y_ {i} -x_ {i} $ tilfeldig, og bruk lineær regresjon til hvert løp. Etter $ m $ kjører får vi en samling av estimerte koeffisienter $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Til slutt beregner du kvantilen til $ {\ hat {\ beta_ {j}}} $.
-
Eksempelfeil: Bruk først lineær regresjon på de opprinnelige observerte dataene fra denne modellen vi får $ \ hat {\ beta_ {o}} $ og feilen $ \ epsilon_ {i} $. Etterpå prøver du tilfeldig på nytt feilen \ \ epsilon ^ {*} _ {i} $ og beregner de nye dataene med $ \ hat {\ beta_ {o}} $ og $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Påfør igjen lineær regresjon. Etter $ m $ kjøringer får vi en samling av estimerte koeffisient $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Til slutt beregner du kvantilen på $ {\ hat {\ beta_ {j}}} $.
Mine spørsmål er:
- Hvordan er disse to metodene forskjellige?
- Under hvilken antagelse er disse to metodene som gir det samme resultatet?
Kommentarer
Svar
Hvis svar-prediktorparene er oppnådd fra en populasjon ved et tilfeldig utvalg, er det trygt å bruke case / random -x / din første prøvetakingsplan. Hvis prediktorer ble kontrollert for, eller verdiene til prediktorene ble satt av eksperimentatoren, kan du vurdere å bruke gjenværende / modellbasert / fast-x / ditt andre samplingsskjema.
Hvordan skiller de to seg? En introduksjon til bootstrap med applikasjoner i R av Davison og Kounen har en diskusjon som er relevant for dette spørsmålet (se s.9). Se også R-koden i dette vedlegget av John Fox , spesielt funksjonene boot.huber på s.5 for random-x-ordningen og boot.huber.fixed på s.10 for fast-x-ordningen. Mens det i forelesningsnotater av Shalizi de to ordningene brukes på forskjellige datasett / problemer, illustrerer Foxs vedlegg hvor liten forskjell de to ordningene ofte kan utgjøre.
Når kan de to forventes å levere nesten identiske resultater? En situasjonen er når regresjonsmodellen er riktig spesifisert, for eksempel er det ingen umodellert ikke-linearitet og de vanlige regresjonsantagelsene (f.eks. iid-feil, ingen outliers) er oppfylt. Se kapittel 21 Foxs bok (der nevnte vedlegg med R-koden indirekte hører hjemme), spesielt diskusjonen på side 598 og øvelse 21.3. med tittelen «Tilfeldig versus fast resampling i regresjon».For å sitere fra boka
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling.
Du vil også lære av den diskusjonen hvorfor fixed-x bootstrap implisitt antar at modellens funksjonelle form er riktig (selv om det antas ingen form for feilfordelingen).
Se også lysbilde 12 i denne foredraget for Society Of Actuaries in Ireland av Derek Bain. Den har også en illustrasjon av hva som skal betraktes som «samme resultat»:
The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent.
boot.ci(my.boot, type="basic")
iR
). Eller savner jeg noe her?rms
validate
ogcalibrate
.