Dwa sposoby wykorzystania metody bootstrap do oszacowania przedziału ufności współczynników w regresji

Stosuję model liniowy do moich danych: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Chciałbym oszacować przedział ufności (CI) współczynników ($ \ beta_ {0} $, $ \ beta_ {1} $) przy użyciu metody ładowania początkowego. Istnieją dwa sposoby, w jakie mogę zastosować metodę ładowania początkowego:

  1. Przykładowy sparowany predyktor odpowiedzi: losowo ponownie próbkuj pary $ y_ {i} -x_ {i} $ i zastosuj liniowy regresja do każdego biegu. Po $ m $ uruchomieniach otrzymujemy zbiór oszacowanych współczynników $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Na koniec oblicz kwantyl $ {\ hat {\ beta_ {j}}} $.

  2. Przykładowy błąd: najpierw zastosuj regresję liniową do oryginalnych zaobserwowanych danych z tego modelu otrzymujemy $ \ hat {\ beta_ {o}} $ i błąd $ \ epsilon_ {i} $. Następnie losowo ponownie próbkuj błąd $ \ epsilon ^ {*} _ {i} $ i oblicz nowe dane za pomocą $ \ hat {\ beta_ {o}} $ i $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Zastosuj ponownie regresję liniową. Po $ m $ uruchomieniach otrzymujemy zbiór szacunkowych współczynników $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Na koniec oblicz kwantyl $ {\ hat {\ beta_ {j}}} $.

Moje pytania to:

  • Czym różnią się te dwie metody?
  • Przy jakim założeniu te dwie metody dają ten sam wynik?

Komentarze

  • Osobiście nie użyłbym żadnego z nich jako domyślnego podejścia, ale zamiast tego zalecałbym podstawowy przedział ufności bootstrap. Patrz str. 8 z www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. ' przeprowadziłem wiele symulacji dla binarnego modelu logistycznego i zauważyłem lepsze pokrycie przedziału ufności przy użyciu podstawowego ładowania początkowego niż przy użyciu metody bootstrap percentyla lub BCa.
  • @FrankHarrell, aby było jasne, ” basic ” odnosisz się do nieparametrycznego ładowania początkowego?
  • (1) jest percentylowym nieparametrycznym przedziałem ufności metody ładowania początkowego, a nie podstawowym sposobem ładowania początkowego. Zwróć uwagę, że próbkowanie z $ (x, y) $ jest bezwarunkowym ładowaniem początkowym, który jest bardziej wolny od założeń niż warunkowy program ładujący, który ponownie próbkuje pozostałości.
  • I ' nie jestem ekspertem, ale o ile rozumiem, 1) jest często nazywany ” próbkowaniem wielkości liter „, podczas gdy 2) nazywa się ” resztkowe ponowne próbkowanie ” lub ” fixed- $ x $ ” ponowne próbkowanie. Podstawowy wybór metody nie ' nie implikuje metody obliczania przedziałów ufności po wykonaniu procedury. Otrzymałem te informacje głównie z samouczka Johna Foxa . O ile mi wiadomo, po każdym bootstrapie można obliczyć podstawowe CI bootstrap (np. Z boot.ci(my.boot, type="basic") w R). Czy może coś mi tu brakuje?
  • Tak, możesz przeprowadzić ładowanie klastra. Jest to zaimplementowane w funkcjach R rms validate i calibrate.

Odpowiedź

Jeśli pary odpowiedź-predyktor uzyskano z populacji na podstawie próby losowej, można bezpiecznie użyć przypadek / losowy -x / twój-pierwszy schemat ponownego próbkowania. Jeśli predyktory były kontrolowane lub wartości predyktorów zostały ustalone przez eksperymentatora, możesz rozważyć użycie schematu resamplingu resztkowego / opartego na modelu / ustalonego-x / drugiego.

Czym się różnią? Wprowadzenie do bootstrapu z aplikacjami w R autorstwa Davisona i Kounena zawiera dyskusję dotyczącą tego pytania (patrz str. 9). Zobacz także kod R w tym dodatku Johna Foxa , w szczególności funkcje boot.huber na str. 5 dla schematu losowego x i boot.huber.fixed on str. 10 dla schematu fixed-x. Podczas gdy w notatkach do wykładu autorstwa Shalizi te dwa schematy są stosowane do różnych zbiorów danych / problemów, dodatek Foxa ilustruje, jak niewielką różnicę często dają te dwa schematy.

Kiedy można oczekiwać, że oba te wyniki przyniosą prawie identyczne wyniki? Jeden sytuacja ma miejsce, gdy model regresji jest poprawnie określony, np. nie ma niemodelowanej nieliniowości i spełnione są zwykłe założenia regresji (np. błędy iid, brak wartości odstających). Patrz rozdział 21 z Książka Foxa (do której pośrednio należy wspomniany dodatek z kodem R), szczególnie dyskusja na stronie 598 i ćwiczenie 21.3. zatytułowany „Random versus fixed resampling in regression”.Cytując z książki

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

Dowiesz się również z tej dyskusji, dlaczego bootstrap fixed-x zakłada niejawnie, że forma funkcjonalna modelu jest poprawna (nawet jeśli nie poczyniono żadnych założeń co do kształtu rozkładu błędów).

Zobacz także slajd 12 tego wystąpienia dla Society Of Actuaries in Ireland autorstwa Derek Bain. Zawiera również ilustrację tego, co należy uznać za „ten sam wynik”:

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *