충분한 통계가 실제로 우리에게 어떤 도움이되는지 이해하기가 어렵습니다.
그렇습니다
일부 배포에서 $ X_1, X_2, …, X_n $ 을 얻었으며 통계 $ T (X) $ 은 매개 변수 $ \ theta $ 에 충분합니다.
$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .
$ T (X) $ 를 알고 있으면 매개 변수 $ \ theta $ 에 대한 더 이상 정보를 얻을 수 없습니다. 데이터의 다른 기능을 고려하여 $ X_1, X_2, …, X_n $ .
두 가지 질문이 있습니다.
-
$ T (X) $ 의 목적은 분포의 pdf를 계산할 수 있도록 만드는 것 같습니다. 더 쉽게. pdf 계산이 확률 측정 값 을 산출하는 경우 왜 " $ θ $ " 매개 변수에 대한 추가 정보가 있습니까? 즉, $ T (X) $ 가 $ \ theta $ pdf가 확률 측정 값을 뱉을 때 $ \ theta $ 가 아닌가요?
-
다음과 같은 경우 : " 데이터의 다른 기능 고려 $ X_1, X_2, …, X_n $ . ", 그들이 말하는 다른 함수는 무엇인가요? $ n $ 샘플을 찾고 $ T (X) $ 를 찾은 다음 다른 $ n 세트를 찾습니다. 내가 그린 $ 샘플은 $ T (X) $ 도 제공합니까?
답변
충분도를 이해하는 가장 좋은 방법은 익숙한 예를 고려하는 것입니다. 앞면을 얻을 확률이 알려지지 않은 매개 변수 $ p $ 인 동전을 던진다 고 가정합니다 (반드시 공정하지 않음). 그런 다음 개별 시행은 IID Bernoulli (p) 랜덤 변수이며, $ n $ 시행의 결과를 벡터 $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $로 생각할 수 있습니다. 우리의 직감에 따르면 많은 시행에서 매개 변수 $ p $의 “좋은”추정치는 통계적 $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i . $$ 이제 제가 그러한 실험을 수행하는 상황을 생각해보십시오. $ \ boldsymbol X $와 비교하여 $ \ bar X $를 알려도 $ p $를 똑같이 잘 추정 할 수 있습니까? 확실한. 이것이 우리에게 충분한 역할을합니다. $ T (\ boldsymbol X) = \ bar X $ 통계는 $ p $에 대해 충분 합니다. 원본 샘플 $ \ boldsymbol X $. (그러나이 주장을 증명 하려면 더 많은 설명이 필요합니다.)
다음은 덜 간단한 예입니다. $ {\ rm Uniform} (0, \ theta) $ 분포에서 가져온 $ n $ IID 관찰이 있다고 가정합니다. 여기서 $ \ theta $는 알려지지 않은 매개 변수입니다. $ \ theta $에 대한 충분한 통계는 무엇입니까? 예를 들어, $ n = 5 $ 샘플을 취하고 $ \ boldsymbol X = (3, 1, 4, 5, 4) $를 얻는다고 가정합니다. $ \ theta $에 대한 귀하의 추정치는 $ 5 $ 이상이어야합니다. 그러한 가치를 관찰 할 수 있었기 때문입니다. 그러나 이것이 실제 샘플 $ \ boldsymbol X $를 아는 것에서 얻을 수있는 가장 많은 지식입니다. 다른 관찰은 $ X_4 = 5 $를 관찰 한 후에 $ \ theta $에 대한 추가 정보를 전달하지 않습니다. 따라서 통계 $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$가 $ \ theta $에 충분하다고 직관적으로 예상 할 수 있습니다. 실제로 이것을 증명하기 위해 $ \ theta $에 조건이 지정된 $ \ boldsymbol X $에 대한 결합 밀도를 작성하고 Factorization Theorem을 사용합니다 (그러나 토론을 비공식적으로 유지하기 위해 이것을 생략합니다).
충분한 통계가 반드시 스칼라 값을 갖는 것은 아닙니다. 전체 샘플의 데이터를 단일 스칼라로 축소하는 것이 불가능할 수 있습니다. 이는 일반적으로 여러 매개 변수 (단일 벡터 값 매개 변수로 동일하게 간주 할 수 있음)에 대한 충분 성을 원할 때 발생합니다. 예를 들어, 평균이 $ \ mu $이고 표준 편차가 $ \ sigma $ 인 정규 분포에 대한 충분한 통계는 $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i-\ bar X) ^ 2} \ right). $$ 사실, 이것들은 평균 및 표준 편차의 편향되지 않은 추정량입니다. 이것이 달성 할 수있는 최대 데이터 감소임을 보여줄 수 있습니다.
충분한 통계는 고유하지 않습니다. 동전 던지기 예제에서 $ \ bar X $를 주면 $ p $를 추정 할 수 있습니다. 하지만 제가 $ \ sum_ {i = 1} ^ n X_i $를 주었다면 $ p $를 추정 할 수 있습니다. 사실, 충분한 통계 $ T (\ boldsymbol X) $의 일대일 함수 $ g $도 충분합니다. $ g $를 반전하여 $ T $를 복구 할 수 있기 때문입니다. 따라서 평균과 표준 편차를 알 수없는 일반적인 예의 경우 $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, 즉, 제곱 관측치의 합과 합은 $ (\ mu, \ sigma) $에 충분합니다. 실제로 $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $는 모든 매개 변수에 대해 항상 충분합니다. 원본 샘플에는 항상 우리가 수집 할 수있는 많은 정보가 포함되어 있습니다. .
요약하면 충분 성은 통계가 어떤 종류의 데이터 감소를 달성한다는 것을 공식적으로 보여줄 수 있기 때문에 통계의 바람직한 속성입니다. 최대 데이터 감소량을 달성하는 충분한 통계를 최소한의 충분한 통계라고합니다.
댓글
- $ T (X) $와 매개 변수 $ p $ 또는 $ \ theta $ 사이의 일반적인 관계입니까? $ T (X) $는 항상 매개 변수와 관련되어야합니까? 또한 직관적으로 인수 분해 정리가 작동한다고 말하는 것이 맞습니까? 일단 pdf를 분리하여 매개 변수 / 충분한 통계와 x의 일부 함수의 곱이므로 로그를 가져 와서 MLE 추정치를 얻을 수 있기 때문입니까? 감사합니다!
- 충분한 통계가 반드시 매개 변수의 추정치는 아닙니다. 예를 들어 원본 샘플은 ' 아무것도 추정하지 않습니다. 견적을 얻으려면 뭔가를해야합니다. 유일한 요구 사항은 충분한 통계가 ' 원래 샘플에 있던 매개 변수에 대해 얻을 수있는 정보를 버리지 않는 것입니다. 인수 분해 정리는 매개 변수에 조건부로 남아있는 부분이 충분한 통계의 함수일 뿐인 방식으로 매개 변수에 조건화 된 조인트 PDF를 표현하기 때문에 충분 함을 보여줍니다.
- 계속하려면 그런 의미에서 , PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $를 인수 분해하면 정보 "는 조건부 $ g (T (\ boldsymbol x) \ mid \ theta) $입니다. $ h (\ boldsymbol x) $ 계수는 $ \ theta $에 대한 조건이 아니므로 '에 대한 정보를 제공하지 않습니다. 따라서 알아야 할 것은 $ T (\ boldsymbol X) $이며 다른 것은 없습니다.
- 그러므로 " $ T (X ) $는 $ \ theta $ "에 충분합니다. 즉, 조건부 " $ g (T (X)를 사용할 수 있음을 의미합니다. | \ theta) $를 사용하여 $ \ theta $의 추정치를 구할 수 있습니까?
- $ g $에 샘플이 표시되는 유일한 위치는 합계 $ T (\ boldsymbol x)로 표현 될 때입니다. = \ sum x_i $이므로 충분한 통계입니다. 이제 가설 적으로 $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {-n \ lambda \ prod x_i} 형식의 계수 만 얻을 수 있었다면 \ lambda ^ {\ sum x_i}, $$ 그러면 충분한 통계가 벡터 값이됩니다 : $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.