データに線形モデルを適用しています:$$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}、\ quad \ epsilon_ {i} \ sim N(0、\ sigma ^ {2})。 $$
ブートストラップ法を使用して、係数($ \ beta_ {0} $、$ \ beta_ {1} $)の信頼区間(CI)を推定したいと思います。ブートストラップ法を適用する方法は2つあります。
-
ペアの応答予測子のサンプル:$ y_ {i} -x_ {i} $のペアをランダムにリサンプリングし、線形を適用します。各実行への回帰。 $ m $を実行した後、推定係数$ {\ hat {\ beta_ {j}}}、j = 1、… m $のコレクションを取得します。最後に、$ {\ hat {\ beta_ {j}}} $の分位数を計算します。
-
サンプルエラー:最初に、このモデルから、元の観測データに線形回帰を適用します。 $ \ hat {\ beta_ {o}} $とエラー$ \ epsilon_ {i} $を取得します。その後、エラー$ \ epsilon ^ {*} _ {i} $をランダムにリサンプリングし、$ \ hat {\ beta_ {o}} $と$ y ^ {*} _ {i} = \ hat {を使用して新しいデータを計算します。 \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $。線形回帰をもう一度適用します。 $ m $が実行された後、推定係数$ {\ hat {\ beta_ {j}}}、j = 1、…、m $のコレクションを取得します。最後に、$ {\ hat {\ beta_ {j}}} $の分位数を計算します。
私の質問は次のとおりです。
- これら2つの方法はどのように異なりますか?
- これら2つの方法で同じ結果が得られると仮定しますか?
コメント
回答
応答予測子のペアがランダムサンプルによって母集団から取得されている場合は、ケース/ランダムを使用しても安全です。 -x / your-firstリサンプリングスキーム。予測子が制御されている場合、または予測子の値が実験者によって設定されている場合は、残余/モデルベース/固定x / 2番目のリサンプリングスキームの使用を検討できます。
2つの違いは何ですか? DavisonとKounenによるRのアプリケーションを使用したブートストラップの紹介には、この質問に関連する議論があります(p.9を参照)。 この付録のJohnFoxによるRコードも参照してください。特に、random-xスキームのp.5の関数boot.huberとboot.huber.fixed on固定xスキームについてはp.10。 Shaliziによる講義ノートでは、2つのスキームが異なるデータセット/問題に適用されていますが、Foxの付録では、2つのスキームによる違いがほとんどないことを示しています。
2つがほぼ同じ結果をもたらすと期待できるのはいつですか? 1つ状況は、回帰モデルが正しく指定されている場合です。たとえば、モデル化されていない非線形性がなく、通常の回帰の仮定(iidエラー、外れ値がないなど)が満たされている場合です。の第21章を参照してください。 Foxの本(前述のRコード付きの付録が間接的に属している)、特に598ページの説明と演習21.3。 「回帰におけるランダム対固定リサンプリング」というタイトル。本から引用するには
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling.
また、fixed-xブートストラップがモデルの関数形式が正しいと暗黙的に想定する理由もその議論から学びます( エラー分布の形状については想定されていません。
アイルランドのアクチュアリー協会については、この講演のスライド12 も参照してください。 デレク・ベイン。 また、「同じ結果」と見なされるべきものの図もあります:
The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent.
R
のboot.ci(my.boot, type="basic")
を使用)。または、ここで何かが足りませんか?rms
validate
およびcalibrate
関数で実装されています。