베이지안 부트 스트래핑 프로세스가 무엇인지, 일반적인 부트 스트랩과 어떻게 다른지 이해하는 데 어려움이 있습니다. 누군가가 직관적 인 / 둘 다에 대한 개념적 검토와 비교가 좋습니다.
예를 들어 보겠습니다.
데이터 세트 X가 [1,2,5,7, 삼].
대체로 여러 번 샘플링하여 X 크기와 동일한 샘플 크기를 만드는 경우 (예 : [7,7,2,5,7], [3,5,2,2,7] 등), 그리고 각각의 평균을 계산합니다. 샘플의 부트 스트랩 분포가 평균입니까?
베이지안 부트 스트랩 분포는 어떻게 될까요?
그리고 다른 매개 변수 (분산 등)의 베이지안 부트 스트랩 분포도 같은 방식으로 수행됩니까?
댓글
- sumsar.net/blog/2015/04/ … 및 projecteuclid.org/euclid.aos/1176345338 , 아마도 @ rasmus-b å å가 답변 할 수 있습니다.)
답변
(빈도주의) 부트 스트랩은 데이터를 알려지지 않은 모집단 분포에 대한 합리적인 근사치로 취합니다. 따라서 통계 (데이터의 함수)의 샘플링 분포는 관측치를 대체로 반복적으로 리샘플링하고 각 샘플에 대한 통계를 계산하여 근사화 할 수 있습니다.
$ y = (y_1, \ ldots, y_n) $ 는 원래 데이터를 나타냅니다 (주어진 예에서 $ n = 5 $ ). $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ 는 부트 스트랩 샘플을 나타냅니다. 이러한 샘플에는 일부 관찰이 한 번 이상 반복되고 다른 관찰은 없을 수 있습니다. 부트 스트랩 샘플의 평균은 $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ 로 제공됩니다. 알 수없는 모집단의 샘플링 분포를 근사화하는 데 사용되는 여러 부트 스트랩 복제에 대한 $ m_b $ 분포입니다.
순서대로 빈도 주의적 부트 스트랩과 베이지안 부트 스트랩 간의 연결을 이해하려면 다른 관점에서 $ m_b $ 를 계산하는 방법을 보는 것이 좋습니다.
각 부트 스트랩 샘플 $ y ^ b $ 에서 각 관찰 $ y_i $ 0에서 $ n $ 번 발생합니다. $ h_i ^ b $ 는 pan class = “math에서 $ y_i $ 발생 횟수를 나타냅니다. -container “> $ y ^ b $ , $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . 따라서 $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ 및 $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . $ h ^ b $ 가 주어지면 합계가 1 인 음이 아닌 가중치 모음을 만들 수 있습니다. $ w ^ b = h ^ b / n $ , 여기서 $ w_i ^ b = h_i ^ b / n $ . 이 표기법을 사용하여 부트 스트랩 샘플의 평균을 $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i로 표현할 수 있습니다. $$
부트 스트랩 샘플에 대해 관측 값을 선택하는 방식에 따라 $ w ^ b $ 의 공동 분포가 결정됩니다. 특히 $ h ^ b $ 에는 다항 분포가 있으므로 $$ (n \, w ^ b) \ sim \ textsf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ 따라서 $ m_b $ 배포에서 $ w ^ b $ 를 그리고 $ y $ 로 내적을 계산합니다. 이 새로운 관점에서 관찰은 가중치가 변하는 동안 고정 된 것으로 보입니다.
베이지안 추론에서 관찰은 실제로 고정 된 것으로 간주되므로이 새로운 관점은 베이지안 접근 방식과 일치하는 것처럼 보입니다. 실제로 베이지안 부트 스트랩에 따른 평균 계산은 가중치 분포에서만 다릅니다. (하지만 개념적 관점에서 베이지안 부트 스트랩은 빈도주의 버전과는 상당히 다릅니다.) 데이터 $ y $ 는 고정되어 있고 가중치는 $ w $ 는 알 수없는 매개 변수입니다. 알려지지 않은 매개 변수에 따라 달라지는 데이터의 일부 기능 에 관심이있을 수 있습니다. $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$
다음은 베이지안 부트 스트랩 뒤에있는 모델의 썸네일 스케치입니다. 관측 값에 대한 샘플링 분포는 다항이고 가중치에 대한 사전 분포는 모든 가중치를 적용하는 제한 디리클레 분포입니다. 심플 렉스의 꼭지점에. (일부 작성자는이 모델을 다항 우도 모델 이라고합니다.)
이 모델은 가중치에 대해 다음과 같은 사후 분포를 생성합니다. $ $ w \ sim \ textsf {Dirichlet} (1, \ ldots, 1). $$ (이 분포는 심플 렉스에 대해 평평합니다.) 가중치 (빈도주의 및 베이지안)에 대한 두 분포는 매우 유사합니다. 평균이 동일하고 공분산이 유사합니다. Dirichlet 분포는 다항 분포보다 “부드럽습니다”. 따라서 베이지안 부트 스트랩은 평활화 된 부트 스트랩이라고 부를 수 있습니다. 빈도 주의적 부트 스트랩을 베이지안 부트 스트랩에 대한 근사치로 해석 할 수 있습니다.
가중치에 대한 사후 분포를 고려할 때 반복 샘플링 pan class = “을 통해 함수 $ \ mu $ 의 사후 분포를 근사 할 수 있습니다. math-container “> $ w $ 는 Dirichlet 배포판에서 $ y $ 로 내적을 계산합니다.
우리는 채택 할 수 있습니다. 방정식 추정 $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ underline 0, $$ 여기서 $ g (y_i, \ theta) $ 는 알 수없는 매개 변수 (벡터)에 의존하는 추정 함수 의 벡터입니다. $ \ theta $ 및 $ \ underline 0 $ 은 0으로 구성된 벡터입니다. 이 연립 방정식에 $ y $ 및 pan 클래스가 주어진 경우 $ \ theta $ 에 대한 고유 한 해가있는 경우 = “math-container”> $ w $ 이면 사후 분포에서 $ w $ 를 도출하고 해당 솔루션을 평가하여 사후 분포를 계산할 수 있습니다. (추정 방정식의 프레임 워크는 경험적 우도 및 일반화 된 모멘트 방법 (GMM)과 함께 사용됩니다.)
가장 간단한 경우는 우리가 이미 다룬 사례입니다. $$ \ sum_ {i = 1} ^ n w_i \, (y_i-\ mu) = 0. $$ 평균 및 분산의 경우 $ \ theta = (\ mu, v) $ $$ g (y_i, \ theta) = \ begin {pmatrix} y_i-\ mu \\ (y_i-\ mu) ^ 2-v \ end {pmatrix}. $$ 설정은 빈도주의 부트 스트랩보다 약간 더 복잡합니다. 이것이 베이지안이 빠른 근사치로 빈도주의 부트 스트랩을 채택 할 수있는 이유입니다.
댓글
- 매우 자세한 설명에 감사드립니다. 개인적으로 각 항목을 언제 선택해야하는지에 대한 간단한 설명을 주시면 감사하겠습니다.
- ' 평평한 후방 선택이 이상한 선택인가요? 나는 사후보다는 이전과 같이 평평한 분포를 기대했을 것입니다. 이에 대한 토론을 ' 찾을 수 없습니다. 의견이 있으십니까?
- @Blade-관측 된 모든 데이터 포인트가 동일하게 선택 될 가능성이 높기 때문에 평평한 사후가 유효하다고 생각합니다 . 저는 ' 아직도이 문제를 해결하려고 노력하고 있지만 이것이 도움이 될 수 있습니다. sumsar.net/blog/2015/ 04 / …
- @MattWenham 따라서 사전 선택은 이상합니다. 이것은 Rubin 자신이 지적했습니다. 사전 선택은 사후가 클래식 부트 스트랩을 모방하도록 설정됩니다. ' 유효하지 않다는 것이 ' 유효하지 않습니다. ' 편평한 분포 일 때는 ' 그다지 사후가 아닙니다. 사후가 일부 관찰을 기반으로 일부 정보를 제공 할 것으로 예상 할 수 있지만 여기서는 데이터 세트의 모든 고유 값이 관찰되었다는 가정을 가지고 있습니다.