데이터에 선형 모델을 적용하고 있습니다. $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$
부트 스트랩 방법을 사용하여 계수 ($ \ beta_ {0} $, $ \ beta_ {1} $)의 신뢰 구간 (CI)을 추정하고 싶습니다. 부트 스트랩 방법을 적용 할 수있는 두 가지 방법이 있습니다.
-
샘플 쌍 응답 예측 자 : $ y_ {i} -x_ {i} $ 쌍을 무작위로 다시 샘플링하고 선형 적용 각 실행에 대한 회귀. $ m $ 실행 후 추정 계수 $ {\ hat {\ beta_ {j}}}, j = 1, … m $을 얻습니다. 마지막으로 $ {\ hat {\ beta_ {j}}} $의 분위수를 계산합니다.
-
샘플 오류 : 먼저이 모델에서 관찰 된 원래 데이터에 선형 회귀를 적용합니다. $ \ hat {\ beta_ {o}} $ 및 오류 $ \ epsilon_ {i} $를 얻습니다. 그런 다음 $ \ epsilon ^ {*} _ {i} $ 오류를 무작위로 리샘플링하고 $ \ hat {\ beta_ {o}} $ 및 $ y ^ {*} _ {i} = \ hat {을 사용하여 새 데이터를 계산합니다. \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. 다시 한 번 선형 회귀를 적용합니다. $ m $ 실행 후 추정 계수 $ {\ hat {\ beta_ {j}}}, j = 1, …, m $를 얻습니다. 마지막으로 $ {\ hat {\ beta_ {j}}} $의 분위수를 계산합니다.
제 질문은 다음과 같습니다.
- 이 두 가지 방법은 어떻게 다릅니 까?
- 이 두 가지 방법이 동일한 결과를 제공한다고 가정하는 것은 무엇입니까?
댓글
답변
응답-예측 자 쌍이 무작위 표본으로 모집단에서 얻은 경우 사례 / 무작위를 사용하는 것이 안전합니다. -x / 첫 번째 리샘플링 체계. 예측 변수가 제어되었거나 예측 변수 값이 실험자에 의해 설정된 경우 잔차 / 모델 기반 / 고정 x / 초 리샘플링 체계 사용을 고려할 수 있습니다.
두 가지는 어떻게 다릅니 까? R에서 응용 프로그램을 사용한 부트 스트랩 소개 는이 질문에 대한 논의가 있습니다 (9 페이지 참조). John Fox의이 부록 의 R 코드, 특히 random-x 체계에 대한 5 페이지의 boot.huber 기능과 boot.huber.fixed on 고정 x 방식의 경우 10 페이지. Shalizi의 강의 노트 에서는 두 가지 방식이 서로 다른 데이터 세트 / 문제에 적용되지만 Fox의 부록은 두 가지 방식이 얼마나 적은 차이를 만들 수 있는지 보여줍니다.
둘이 거의 동일한 결과를 제공 할 것으로 예상되는시기는 언제입니까? 하나 예를 들어, 모델링되지 않은 비선형 성이없고 일반적인 회귀 가정 (예 : iid 오류, 이상치 없음)이 충족되는 경우와 같이 회귀 모델이 올바르게 지정된 경우입니다. 의 21 장을 참조하십시오. Fox의 책 (앞서 언급 한 R 코드의 부록이 간접적으로 속함), 특히 598 페이지의 토론과 연습 21.3. “회귀에서 무작위 대 고정 리샘플링”이라는 제목의.책에서 인용하기 위해
By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling.
왜 fixed-x 부트 스트랩이 모델의 기능적 형식이 정확하다고 암시 적으로 가정하는지 그 토론에서 배웁니다. 오류 분포의 형태에 대한 가정은 없습니다.
이 강연의 슬라이드 12 도 참조하십시오. 데릭 베인. 또한 “동일한 결과”로 간주되어야하는 내용을 보여줍니다.
The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent.
R
의boot.ci(my.boot, type="basic")
사용). 아니면 여기서 놓친 것이 있습니까?rms
validate
및calibrate
함수에서 구현됩니다.