ブートストラップを使用して回帰の係数の信頼区間を推定する2つの方法

データに線形モデルを適用しています：$$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}、\ quad \ epsilon_ {i} \ sim N（0、\ sigma ^ {2}）。 $$

ブートストラップ法を使用して、係数（$ \ beta_ {0} $、$ \ beta_ {1} $）の信頼区間（CI）を推定したいと思います。ブートストラップ法を適用する方法は2つあります。

ペアの応答予測子のサンプル：$ y_ {i} -x_ {i} $のペアをランダムにリサンプリングし、線形を適用します。各実行への回帰。 $ m $を実行した後、推定係数$ {\ hat {\ beta_ {j}}}、j = 1、… m $のコレクションを取得します。最後に、$ {\ hat {\ beta_ {j}}} $の分位数を計算します。
サンプルエラー：最初に、このモデルから、元の観測データに線形回帰を適用します。 $ \ hat {\ beta_ {o}} $とエラー$ \ epsilon_ {i} $を取得します。その後、エラー$ \ epsilon ^ {*} _ {i} $をランダムにリサンプリングし、$ \ hat {\ beta_ {o}} $と$ y ^ {*} _ {i} = \ hat {を使用して新しいデータを計算します。 \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $。線形回帰をもう一度適用します。 $ m $が実行された後、推定係数$ {\ hat {\ beta_ {j}}}、j = 1、…、m $のコレクションを取得します。最後に、$ {\ hat {\ beta_ {j}}} $の分位数を計算します。

私の質問は次のとおりです。

これら2つの方法はどのように異なりますか？
これら2つの方法で同じ結果が得られると仮定しますか？

個人的にはデフォルトのアプローチとしても使用しませんが、代わりに基本的なブートストラップ信頼区間をお勧めします。 p。を参照してください。 www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdfの8。 'は、バイナリロジスティックモデルに対して多くのシミュレーションを行っており、パーセンタイルまたはBCaブートストラップを使用するよりも、基本的なブートストラップを使用した方が信頼区間の範囲が広いことを確認しています。
@FrankHarrell明確にするために、"基本"によって、ノンパラメトリックブートストラップを参照していますか？
（1）はブートストラップパーセンタイルのノンパラメトリック信頼区間であり、基本的なブートストラップではありません。 $（x、y）$からのサンプリングは無条件のブートストラップであり、残差をリサンプリングする条件付きブートストラップよりも仮定がないことに注意してください。
I ' mは実際には専門家ではありませんが、私が理解している限り、1）はしばしば"ケースリサンプリング"と呼ばれますが、2） "残差リサンプリング"または"固定-$ x $ "リサンプリング。この方法の基本的な選択は、'手順の後に信頼区間を計算する方法を意味するものではありません。この情報は、主にジョンフォックスのチュートリアルから入手しました。私の知る限り、どちらのブートストラップの後でも、基本的なブートストラップCIを計算できます（たとえば、Rのboot.ci(my.boot, type="basic")を使用）。または、ここで何かが足りませんか？
はい、クラスターのブートストラップを実行できます。これは、R rms validateおよびcalibrate関数で実装されています。

回答

応答予測子のペアがランダムサンプルによって母集団から取得されている場合は、ケース/ランダムを使用しても安全です。 -x / your-firstリサンプリングスキーム。予測子が制御されている場合、または予測子の値が実験者によって設定されている場合は、残余/モデルベース/固定x / 2番目のリサンプリングスキームの使用を検討できます。

2つの違いは何ですか？ DavisonとKounenによるRのアプリケーションを使用したブートストラップの紹介には、この質問に関連する議論があります（p.9を参照）。この付録のJohnFoxによるRコードも参照してください。特に、random-xスキームのp.5の関数boot.huberとboot.huber.fixed on固定xスキームについてはp.10。 Shaliziによる講義ノートでは、2つのスキームが異なるデータセット/問題に適用されていますが、Foxの付録では、2つのスキームによる違いがほとんどないことを示しています。

2つがほぼ同じ結果をもたらすと期待できるのはいつですか？ 1つ状況は、回帰モデルが正しく指定されている場合です。たとえば、モデル化されていない非線形性がなく、通常の回帰の仮定（iidエラー、外れ値がないなど）が満たされている場合です。の第21章を参照してください。 Foxの本（前述のRコード付きの付録が間接的に属している）、特に598ページの説明と演習21.3。「回帰におけるランダム対固定リサンプリング」というタイトル。本から引用するには

By randomly reattaching resampled residuals to ﬁtted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reﬂected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling.

また、fixed-xブートストラップがモデルの関数形式が正しいと暗黙的に想定する理由もその議論から学びます（エラー分布の形状については想定されていません。

アイルランドのアクチュアリー協会については、この講演のスライド12 も参照してください。デレク・ベイン。また、「同じ結果」と見なされるべきものの図もあります：

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent.

ブートストラップを使用して回帰の係数の信頼区間を推定する2つの方法

コメント

回答

コメントを残すコメントをキャンセル

コメント

回答

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル