Due modi di utilizzare bootstrap per stimare lintervallo di confidenza dei coefficienti nella regressione

Sto applicando un modello lineare ai miei dati: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Vorrei stimare lintervallo di confidenza (CI) dei coefficienti ($ \ beta_ {0} $, $ \ beta_ {1} $) utilizzando il metodo bootstrap. Ci sono due modi in cui posso applicare il metodo bootstrap:

  1. Esempio di predittore di risposta accoppiato: ricampiona casualmente coppie di $ y_ {i} -x_ {i} $ e applica lineare regressione a ciascuna esecuzione. Dopo lesecuzione di $ m $, otteniamo una raccolta di coefficienti stimati $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Infine, calcola il quantile di $ {\ hat {\ beta_ {j}}} $.

  2. Errore di esempio: applica prima la regressione lineare sui dati osservati originali, da questo modello otteniamo $ \ hat {\ beta_ {o}} $ e lerrore $ \ epsilon_ {i} $. Successivamente, ricampiona in modo casuale lerrore $ \ epsilon ^ {*} _ {i} $ e calcola i nuovi dati con $ \ hat {\ beta_ {o}} $ e $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Applicare ancora una volta la regressione lineare. Dopo che $ m $ viene eseguito, otteniamo una raccolta di coefficeint stimati $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Infine, calcola il quantile di $ {\ hat {\ beta_ {j}}} $.

Le mie domande sono:

  • In cosa differiscono questi due metodi?
  • In base a quale ipotesi questi due metodi danno lo stesso risultato?

Commenti

  • Personalmente non li userei come approccio predefinito, ma consiglierei invece lintervallo di confidenza di base del bootstrap. Vedi p. 8 di www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. ‘ ho eseguito molte simulazioni per il modello logistico binario e ho riscontrato una migliore copertura dellintervallo di confidenza utilizzando il bootstrap di base rispetto al percentile o il bootstrap BCa.
  • @FrankHarrell per essere chiari, ” basic ” ti riferisci al bootstrap non parametrico?
  • (1) è lintervallo di confidenza non parametrico percentile di bootstrap, non il bootstrap di base. Nota che il campionamento da $ (x, y) $ è il bootstrap incondizionato, che è più privo di presupposti rispetto al bootstrap condizionale che ricampiona i residui.
  • I ‘ Non sono davvero un esperto, ma per quanto ho capito, 1) è spesso chiamato ” case-resampling ” mentre 2) si chiama ” ricampionamento residuo ” o ” fixed- $ x $ ” ricampionamento. La scelta di base del metodo non ‘ t implica il metodo di come calcolare gli intervalli di confidenza dopo la procedura. Ho ottenuto queste informazioni principalmente dal tutorial di John Fox . Per quanto ne so, dopo uno dei due bootstrap, potresti calcolare i CI di bootstrap di base (ad es. Con boot.ci(my.boot, type="basic") in R). O mi manca qualcosa qui?
  • Sì, puoi eseguire il bootstrap del cluster. Questo è implementato nelle funzioni R rms validate e calibrate.

Risposta

Se le coppie risposta-predittore sono state ottenute da una popolazione in base a un campione casuale, è sicuro usare caso / casuale -x / il tuo primo schema di ricampionamento. Se i predittori sono stati controllati o i valori dei predittori sono stati impostati dallo sperimentatore, è possibile considerare lutilizzo di uno schema di ricampionamento residuo / basato su modello / fisso-x / il tuo secondo.

In cosa differiscono i due? Unintroduzione al bootstrap con applicazioni in R di Davison e Kounen contiene una discussione pertinente a questa domanda (vedere p.9). Vedi anche il codice R in questa appendice di John Fox , in particolare le funzioni boot.huber a p.5 per lo schema random-x e boot.huber.fixed su p.10 per lo schema a x fissa. Mentre nelle dispense di Shalizi i due schemi sono applicati a diversi set di dati / problemi, lappendice di Fox illustra la poca differenza che i due schemi possono spesso fare.

Quando ci si può aspettare che i due forniscano risultati quasi identici? Uno situazione è quando il modello di regressione è specificato correttamente, ad esempio, non cè non linearità non modellata e le solite ipotesi di regressione (ad esempio, errori iid, nessun outlier) sono soddisfatte. Vedere capitolo 21 Il libro di Fox (a cui appartiene indirettamente la suddetta appendice con il codice R), in particolare la discussione a pagina 598 e lesercizio 21.3. intitolato “Ricampionamento casuale contro ricampionamento fisso nella regressione”.Per citare il libro

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

Imparerai anche da quella discussione perché il bootstrap fixed-x presuppone implicitamente che la forma funzionale del modello sia corretta (anche se nessuna ipotesi sulla forma della distribuzione degli errori).

Vedi anche diapositiva 12 di questo discorso per Society Of Actuaries in Ireland di Derek Bain. Ha anche unillustrazione di ciò che dovrebbe essere considerato “lo stesso risultato”:

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *