Zwei Möglichkeiten, Bootstrap zum Schätzen des Konfidenzintervalls von Koeffizienten in der Regression zu verwenden

Ich wende ein lineares Modell auf meine Daten an: $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

Ich möchte das Konfidenzintervall (CI) der Koeffizienten ($ \ beta_ {0} $, $ \ beta_ {1} $) mithilfe der Bootstrap-Methode schätzen. Es gibt zwei Möglichkeiten, wie ich die Bootstrap-Methode anwenden kann:

  1. Beispiel für einen gepaarten Antwortprädiktor: Stichproben von $ y_ {i} -x_ {i} $ werden zufällig neu abgetastet und linear angewendet Regression zu jedem Lauf. Nachdem $ m $ ausgeführt wurde, erhalten wir eine Sammlung geschätzter Koeffizienten $ {\ hat {\ beta_ {j}}}, j = 1, … m $. Berechnen Sie abschließend das Quantil von $ {\ hat {\ beta_ {j}}} $.

  2. Beispielfehler: Wenden Sie zunächst eine lineare Regression auf die ursprünglich beobachteten Daten aus diesem Modell an Wir erhalten $ \ hat {\ beta_ {o}} $ und den Fehler $ \ epsilon_ {i} $. Probieren Sie anschließend den Fehler $ \ epsilon ^ {*} _ {i} $ nach dem Zufallsprinzip erneut aus und berechnen Sie die neuen Daten mit $ \ hat {\ beta_ {o}} $ und $ y ^ {*} _ {i} = \ hat { \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. Wenden Sie erneut eine lineare Regression an. Nachdem $ m $ ausgeführt wurde, erhalten wir eine Sammlung geschätzter Koeffizienten $ {\ hat {\ beta_ {j}}}, j = 1, …, m $. Berechnen Sie abschließend das Quantil von $ {\ hat {\ beta_ {j}}} $.

Meine Fragen sind:

  • Wie unterscheiden sich diese beiden Methoden?
  • Unter welcher Annahme liefern diese beiden Methoden das gleiche Ergebnis?

Kommentare

  • Ich persönlich würde beides nicht als Standardansatz verwenden, sondern stattdessen das grundlegende Bootstrap-Konfidenzintervall empfehlen. Siehe S. 8 von www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Ich habe ‚ viele Simulationen für das binäre Logistikmodell durchgeführt und mit dem Basis-Bootstrap eine bessere Abdeckung des Konfidenzintervalls festgestellt als mit dem Perzentil- oder BCa-Bootstrap.
  • @FrankHarrell um klar zu sein, mit “ basic “ beziehen Sie sich auf den nicht parametrischen Bootstrap?
  • (1) ist das nichtparametrische Konfidenzintervall des Bootstrap-Perzentils, nicht der grundlegende Bootstrap. Beachten Sie, dass das Abtasten von $ (x, y) $ der bedingungslose Bootstrap ist, der mehr annahmefrei ist als der bedingte Bootstrap, der Residuen erneut abtastet.
  • I ‚ Ich bin wirklich kein Experte, aber soweit ich es verstehe, wird 1) oft als “ Fall-Resampling “ bezeichnet, während die 2) heißt “ Residuum “ oder “ fixed- $ x $ “ Resampling. Die grundlegende Wahl der Methode impliziert nicht ‚ die Methode zur Berechnung der Konfidenzintervalle nach der Prozedur. Ich habe diese Informationen hauptsächlich aus dem Tutorial von John Fox erhalten. Soweit ich es sehe, können Sie nach jedem Bootstrap die grundlegenden Bootstrap-CIs berechnen (z. B. mit boot.ci(my.boot, type="basic") in R). Oder vermisse ich hier etwas?
  • Ja, Sie können Cluster-Bootstrapping durchführen. Dies ist in den Funktionen R rms validate und calibrate implementiert.

Antwort

Wenn die Antwort-Prädiktor-Paare aus einer Population per Zufallsstichprobe erhalten wurden, ist es sicher, case / random zu verwenden -x / Ihr erstes Resampling-Schema. Wenn Prädiktoren gesteuert wurden oder die Werte der Prädiktoren vom Experimentator festgelegt wurden, können Sie die Verwendung eines Residpling-Schemas für Residuen / Modelle / Feste x / Ihre Sekunde in Betracht ziehen.

Wie unterscheiden sich die beiden? Eine Einführung in den Bootstrap mit Anwendungen in R von Davison und Kounen enthält eine Diskussion zu dieser Frage (siehe S.9). Siehe auch den R-Code in dieses Anhangs von John Fox , insbesondere die Funktionen boot.huber auf S. 5 für das Random-x-Schema und boot.huber.fixed on S.10 für das Fixed-x-Schema. Während in den Vorlesungsunterlagen von Shalizi die beiden Schemata auf unterschiedliche Datensätze / Probleme angewendet werden, zeigt der Anhang von Fox, wie wenig Unterschied die beiden Schemata häufig machen können.

Wann können die beiden nahezu identische Ergebnisse liefern? Eins Die Situation ist, wenn das Regressionsmodell korrekt angegeben ist, z. B. keine nicht modellierte Nichtlinearität vorliegt und die üblichen Regressionsannahmen (z. B. ID-Fehler, keine Ausreißer) erfüllt sind. Siehe Kapitel 21 von Fox Buch (in das der oben genannte Anhang mit dem R-Code indirekt gehört), insbesondere die Diskussion auf Seite 598 und Übung 21.3. mit dem Titel „Random versus Fixed Resampling in Regression“.Um aus dem Buch zu zitieren

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

Aus dieser Diskussion erfahren Sie auch, warum der Bootstrap mit festem x implizit davon ausgeht, dass die funktionale Form des Modells korrekt ist (obwohl) Es wird keine Annahme über die Form der Fehlerverteilung gemacht.

Siehe auch Folie 12 dieses Vortrags für Society of Actuaries in Ireland von Derek Bain. Es enthält auch eine Darstellung dessen, was als „dasselbe Ergebnis“ angesehen werden sollte:

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.