회귀에서 계수의 신뢰 구간을 추정하기 위해 부트 스트랩을 사용하는 두 가지 방법

데이터에 선형 모델을 적용하고 있습니다. $$ y_ {i} = \ beta_ {0} + \ beta_ {1} x_ {i} + \ epsilon_ {i}, \ quad \ epsilon_ {i} \ sim N (0, \ sigma ^ {2}). $$

부트 스트랩 방법을 사용하여 계수 ($ \ beta_ {0} $, $ \ beta_ {1} $)의 신뢰 구간 (CI)을 추정하고 싶습니다. 부트 스트랩 방법을 적용 할 수있는 두 가지 방법이 있습니다.

  1. 샘플 쌍 응답 예측 자 : $ y_ {i} -x_ {i} $ 쌍을 무작위로 다시 샘플링하고 선형 적용 각 실행에 대한 회귀. $ m $ 실행 후 추정 계수 $ {\ hat {\ beta_ {j}}}, j = 1, … m $을 얻습니다. 마지막으로 $ {\ hat {\ beta_ {j}}} $의 분위수를 계산합니다.

  2. 샘플 오류 : 먼저이 모델에서 관찰 된 원래 데이터에 선형 회귀를 적용합니다. $ \ hat {\ beta_ {o}} $ 및 오류 $ \ epsilon_ {i} $를 얻습니다. 그런 다음 $ \ epsilon ^ {*} _ {i} $ 오류를 무작위로 리샘플링하고 $ \ hat {\ beta_ {o}} $ 및 $ y ^ {*} _ {i} = \ hat {을 사용하여 새 데이터를 계산합니다. \ beta_ {o}} x_ {i} + \ epsilon ^ {*} _ {i} $. 다시 한 번 선형 회귀를 적용합니다. $ m $ 실행 후 추정 계수 $ {\ hat {\ beta_ {j}}}, j = 1, …, m $를 얻습니다. 마지막으로 $ {\ hat {\ beta_ {j}}} $의 분위수를 계산합니다.

제 질문은 다음과 같습니다.

  • 이 두 가지 방법은 어떻게 다릅니 까?
  • 이 두 가지 방법이 동일한 결과를 제공한다고 가정하는 것은 무엇입니까?

댓글

  • 개인적으로는 둘 중 하나를 기본 접근 방식으로 사용하지 않고 대신 기본 부트 스트랩 신뢰 구간을 권장합니다. p. 8 of www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. 저는 ' 이진 로지스틱 모델에 대해 많은 시뮬레이션을 수행했으며 백분위 수 또는 BCa 부트 스트랩을 사용하는 것보다 기본 부트 스트랩을 사용하여 더 나은 신뢰 구간 범위를 보았습니다.
  • @FrankHarrell, " 기본 "에서 비 매개 변수 부트 스트랩을 언급하고 있습니까?
  • (1)은 기본 부트 스트랩이 아닌 부트 스트랩 백분위 수 비모수 신뢰 구간입니다. $ (x, y) $에서 샘플링하는 것은 무조건 부트 스트랩이며, 잔차를 재 샘플링하는 조건부 부트 스트랩보다 더 가정이 없습니다.
  • I ' m 정말 전문가는 아니지만 내가 이해하는 한 1) 종종 " 케이스 리샘플링 "이라고 부르지 만 2) " 잔여 리샘플링 " 또는 " 고정-$ x $ " 리샘플링. 방법의 기본 선택은 절차 후 신뢰 구간을 계산하는 방법을 의미하지 않습니다. ' 이 정보는 주로 John Fox 자습서 에서 얻었습니다. 내가 아는 한, 두 부트 스트랩 후에 기본 부트 스트랩 CI를 계산할 수 있습니다 (예 : Rboot.ci(my.boot, type="basic") 사용). 아니면 여기서 놓친 것이 있습니까?
  • 예, 클러스터 부트 스트랩을 수행 할 수 있습니다. 이는 R rms validatecalibrate 함수에서 구현됩니다.

답변

응답-예측 자 쌍이 무작위 표본으로 모집단에서 얻은 경우 사례 / 무작위를 사용하는 것이 안전합니다. -x / 첫 번째 리샘플링 체계. 예측 변수가 제어되었거나 예측 변수 값이 실험자에 의해 설정된 경우 잔차 / 모델 기반 / 고정 x / 초 리샘플링 체계 사용을 고려할 수 있습니다.

두 가지는 어떻게 다릅니 까? R에서 응용 프로그램을 사용한 부트 스트랩 소개 는이 질문에 대한 논의가 있습니다 (9 페이지 참조). John Fox의이 부록 의 R 코드, 특히 random-x 체계에 대한 5 페이지의 boot.huber 기능과 boot.huber.fixed on 고정 x 방식의 경우 10 페이지. Shalizi의 강의 노트 에서는 두 가지 방식이 서로 다른 데이터 세트 / 문제에 적용되지만 Fox의 부록은 두 가지 방식이 얼마나 적은 차이를 만들 수 있는지 보여줍니다.

둘이 거의 동일한 결과를 제공 할 것으로 예상되는시기는 언제입니까? 하나 예를 들어, 모델링되지 않은 비선형 성이없고 일반적인 회귀 가정 (예 : iid 오류, 이상치 없음)이 충족되는 경우와 같이 회귀 모델이 올바르게 지정된 경우입니다. 의 21 장을 참조하십시오. Fox의 책 (앞서 언급 한 R 코드의 부록이 간접적으로 속함), 특히 598 페이지의 토론과 연습 21.3. “회귀에서 무작위 대 고정 리샘플링”이라는 제목의.책에서 인용하기 위해

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based] procedure implicitly assumes that the errors are identically distributed. If, for example, the true errors have non-constant variance, then this property will not be reflected in the resampled residuals. Likewise, the unique impact of a high-leverage outlier will be lost to the resampling. 

왜 fixed-x 부트 스트랩이 모델의 기능적 형식이 정확하다고 암시 적으로 가정하는지 그 토론에서 배웁니다. 오류 분포의 형태에 대한 가정은 없습니다.

이 강연의 슬라이드 12 도 참조하십시오. 데릭 베인. 또한 “동일한 결과”로 간주되어야하는 내용을 보여줍니다.

The approach of re-sampling cases to generate pseudo data is the more usual form of bootstrapping. The approach is robust in that if an incorrect model is fitted an appropriate measure of parameter meter uncertainty is still obtained. However re sampling residuals is more efficient if the correct model has been fitted. The graphs shows both approaches in estimating the variance of a 26 point data sample mean and a 52 point sample mean. In the larger sample the two approaches are equivalent. 

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다