풀링 된 분산 “ 실제로 ”는 무엇을 의미합니까?

저는 통계 계의 멍청한 사람이므로 여기에서 저를 도와주세요.

제 질문은 다음과 같습니다. 통합 분산 실제로 의미합니까?

인터넷에서 통합 분산에 대한 공식을 찾을 때 다음 공식을 사용하여 많은 문헌을 찾습니다 (예 : http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ) :

\ begin {equation} \ label {eq : stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2-2} \ end {equation}

하지만 그게 뭐죠 실제로 계산합니까? 이 공식을 사용하여 합동 분산을 계산할 때 잘못된 답을 제공하기 때문입니다.

예를 들어 다음 “상위 표본”을 고려하십시오.

\ begin {equation} \ label { eq : parentsample} 2,2,2,2,2,8,8,8,8,8 \ end {equation}

이 상위 표본의 분산은 $ S ^ 2_p = 10 $, 그 평균은 $ \ bar {x} _p = 5 $입니다.

이제이 상위 샘플을 두 개의 하위 샘플로 분할했다고 가정합니다.

  1. 첫 번째 하위 샘플은 평균 $ \ 인 2,2,2,2,2입니다. bar {x} _1 = 2 $ 및 분산 $ S ^ 2_1 = 0 $.
  2. 두 번째 하위 표본은 8,8,8,8,8이고 평균은 $ \ bar {x} _2 =입니다. 8 $ 및 분산 $ S ^ 2_2 = 0 $.

이제 위 공식을 사용하여이 두 하위 표본의 합동 / 상위 분산을 계산하면 $가 0이됩니다. S_1 = 0 $ 및 $ S_2 = 0 $. 그렇다면이 공식은 실제로 무엇을 계산합니까?

반면에 약간의 긴 유도 후에 올바른 합동 / 상위 분산을 생성하는 공식은 다음과 같습니다.

\ begin {equation} \ label {eq : smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2-1} \ end {equation}

위 공식에서 $ d_1 = \ bar {x_1}-\ bar {x} _p $ 및 $ d_2 = \ bar {x_2 }-\ bar {x} _p $.

예를 들어 다음과 같은 유사한 공식을 찾았습니다. http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html 및 Wikipedia에도 있습니다. 비록 그들이 내 것과 똑같지는 않다는 것을 인정해야합니다.

다시 말하지만, 풀링 된 분산은 실제로 무엇을 의미합니까? 두 하위 샘플의 상위 샘플의 분산을 의미하지 않아야합니다. ? 아니면 제가 여기서 완전히 틀렸나 요?

미리 감사합니다.


편집 1 : 누군가는 위의 두 하위 샘플이 분산이 없기 때문에 병리 적이라고 말합니다. 음, 다른 예를 들어 보겠습니다. 다음 상위 샘플을 고려하십시오.

\ begin {equation} \ label {eq : parentsample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}

이 상위 표본의 분산은 $ S ^ 2_p = 564.7 $이고 평균은 $ \ bar {x} _p = 25.5 $입니다.

이제이 상위 샘플을 두 개의 하위 샘플로 분할했다고 가정합니다.

  1. 첫 번째 하위 샘플은 평균 $ \ 인 1,2,3,4,5입니다. bar {x} _1 = 3 $ 및 분산 $ S ^ 2_1 = 2.5 $.
  2. 두 번째 하위 표본은 46,47,48,49,50이며 평균은 $ \ bar {x} _2 =입니다. 48 $ 및 분산 $ S ^ 2_2 = 2.5 $.

이제 풀 분산을 계산하기 위해 “문학”공식 “을 사용하면 완전히 잘못된 2.5를 얻게됩니다. 부모 / 합동 분산이 564.7이어야하기 때문입니다. 대신 “내 공식”을 사용하면 정답을 얻을 수 있습니다.

이해해주십시오. 여기에 극단적 인 예를 사용하여 공식이 실제로 잘못되었음을 사람들에게 보여줍니다. 변형이 많지 않은 “정상 데이터”(극단적 인 경우)를 사용하면 두 공식의 결과가 매우 유사 할 것이며 사람들은 공식 자체가 아니기 때문에 반올림 오류로 인해 차이를 무시할 수 있습니다. 잘못되었습니다.

댓글

답변

간단히 말하면, 합동 분산은 각 표본 내 분산의 (편향되지 않은) 추정치이며 이러한 분산이 동일하다는 가정 / 제약 조건하에 있습니다.

이는 풀링 된 분산에 대한 Wikipedia 항목 에서 자세히 설명, 동기 부여 및 분석됩니다.

않습니다 . 이미 발견했듯이이를 추정하려면 완전히 다른 공식이 필요합니다.

댓글

  • ” 동등성 ” (즉, 동일한 모집단에서 해당 샘플을 인식 함)이 무엇인지 정의하는 데 일반적으로 필요하지 않습니다.-” 풀링 됨 “. 풀링은 단순히 평균, 옴니버스를 의미합니다 (Tim에게 내 의견 참조).
  • @ttnphns 풀링 된 분산에 구두로만 넘어가는 개념적 의미 (OP가 요청한)를 제공하려면 평등 가정이 필요하다고 생각합니다. 표본 분산에 대해 수행하는 수학적 연산을 설명합니다. 모집단 분산이 같지 않다고 가정하면 ‘ 풀링 된 분산을 추정치로 간주 할 수있는 것이 무엇인지 불분명합니다. 물론, 우리는 그것을 두 가지 분산의 합체라고 생각하고 그대로 둘 수는 있지만 결합하고 싶은 동기가 없으면 ‘ 거의 깨달음을 얻지 못합니다. 처음부터 차이가 있습니다.
  • Jake, 저는 ‘ OP의 특정 질문을 감안할 때 그것에 동의하지 않지만 ” 풀링 된 “라는 단어의 정의, ‘ 내가 말한 이유, ” 일반적으로 “.
  • @JakeWestfall 귀하의 답변이 지금까지 가장 좋은 답변입니다. 감사합니다. 나는 아직 한 가지에 대해 명확하지 않지만. Wikipedia에 따르면, 합동 분산은 각 모집단의 평균 다를 수 일 때 여러 모집단의 분산을 추정하는 방법이지만 분산이 각 모집단의 동일 입니다.
  • @JakeWestfall : 따라서 평균이 다른 두 모집단에서 합산 분산을 계산하는 경우 실제로 계산되는 것은 무엇입니까? 첫 번째 분산은 첫 번째 평균에 대한 변동을 측정하고 두 번째 분산은 두 번째 평균에 대한 것이기 때문입니다. 계산을 통해 어떤 추가 정보를 얻을 수 있는지 ‘ 알 수 없습니다.

답변

풀된 분산은 전체분산을 얻기 위해 가중 평균을 취하여 서로 다른 샘플의 분산을 결합 하는 데 사용됩니다. 예제의 문제는 각 하위 샘플의 분산이 0과 같기 때문에 병리학적인 경우라는 것입니다. 이러한 병리학 적 사례는 우리가 일반적으로 접하는 데이터와 거의 공통점이 거의 없습니다. 항상 약간의 변동성이 있고 변동성이없는 경우에는 정보가 없기 때문에 이러한 변수에 대해 신경 쓰지 않습니다. 매우 간단한 방법이며 이러한 문제가 발생하지 않는 계층 적 데이터 구조의 분산을 추정하는 더 복잡한 방법이 있습니다.

편집의 예와 마찬가지로 가정을 명확하게 설명하는 것이 중요 함을 보여줍니다. 분석을 시작하기 전에 $ k $ 그룹에 $ n $ 데이터 포인트가 있다고 가정 해 보겠습니다. $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, 여기서 $ x_ {i, j} $의 $ i $ -th 인덱스는 케이스를 나타내고 $ j $ -th 인덱스는 그룹 인덱스를 나타냅니다. 가능한 여러 시나리오가 있습니다. 모든 포인트가 동일한 분포에서 나온다고 가정 할 수 있습니다 (간단하게하기 위해 정규 분포를 가정하겠습니다).

$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$

각 하위 샘플에는 자체 평균이 있다고 가정 할 수 있습니다.

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

또는 자체 분산

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

또는 각각 고유 한 매개 변수가 있습니다.

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

가정에 따라 특정 방법은 또는 데이터 분석에 적합하지 않을 수 있습니다.

첫 번째 경우에는 모두 동일하다고 가정하기 때문에 그룹 내 분산을 추정하는 데 관심이 없습니다. 그럼에도 불구하고 그룹 분산에서 전역 분산을 집계하면 분산의 정의가

$$ \ mathrm {Var} (X) = \ frac이므로 통합 분산을 사용하는 것과 동일한 결과를 얻을 수 있습니다. {1} {n-1} \ sum_i (x_i-\ mu) ^ 2 $$

그리고 합동 추정기에서 먼저 $ n-1 $를 곱한 다음 함께 더한 다음 마지막으로 나눕니다. $ n_1 + n_2-1 $.

두 번째 경우는 다르지만 공통 분산이 있음을 의미합니다. 이 예제는 편집에서 가장 가까운 예제입니다. 이 시나리오에서 풀링 된 분산은 전역 분산을 올바르게 추정하는 반면, 전체 데이터 세트에 대한 분산을 추정하면 그룹의 평균이 다르다는 사실을 고려하지 않았기 때문에 잘못된 결과를 얻을 수 있습니다. .

세 번째 경우에는 각 그룹에 자체 분산이 있다고 가정하기 때문에 “전역”분산을 추정하는 것은 “이치가 없습니다.”전체 모집단에 대한 추정치를 구하는 데 여전히 관심이있을 수 있지만이 경우 (a) 그룹 별 개별 분산 계산과 (b) 전체 데이터 세트에서 전역 분산 계산, 오해의 소지가있는 결과를 제공 할 수 있습니다 . 이런 종류의 데이터를 다루는 경우 데이터의 계층 적 특성을 설명하는 더 복잡한 모델을 사용해야합니다.

네 번째 경우는 가장 극단적이고 이전 사례와 매우 유사합니다. 이 시나리오에서 전역 평균과 분산을 추정하려면 다른 모델과 다른 가정이 필요합니다. 이러한 경우 데이터가 계층 구조라고 가정하고 그룹 내 평균 및 분산 외에 더 높은 수준의 공통 분산이 있다고 가정합니다 (예 : 다음 모델 가정)

$$ \ 시작 {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

여기서 각 표본에는 공통 분포에서 가져온 자체 평균과 분산 $ \ mu_j, \ sigma ^ 2_j $가 있습니다. 이러한 경우 하위 수준 및 상위 수준 변동성을 모두 고려하는 계층 적 모델을 사용합니다. 이러한 종류의 모델에 대한 자세한 내용은 Gelman 등의 Bayesian 데이터 분석 책을 참조하세요. 및 8 개 학교 예시 . 그러나 이것은 단순한 통합 분산 추정기보다 훨씬 더 복잡한 모델입니다.

댓글

  • 다른 예제로 질문을 업데이트했습니다. 이 경우 ” 문학 ‘ 공식 “의 답변은 여전히 잘못되었습니다. 위의 예와 같은 극단적 인 경우가없는 ” 일반 데이터 “를 일반적으로 처리하고 있음을 이해합니다. 그러나 수학자로서 ‘ 어떤 공식이 ” 매일 / 일반적인 문제에 적용되는지 대신 어떤 공식이 실제로 올바른지 신경 쓰지 않아야합니다. “? 일부 공식이 근본적으로 잘못 되었다면 폐기해야합니다. 특히 병리학 적이든 아니든 모든 경우에 적용되는 다른 공식이 있을 경우 버려야합니다.
  • Btw 더 복잡한 방법이 있다고 말씀하셨습니다. 추정 분산의. 이런 방법을 보여 주시겠습니까? 감사합니다
  • Tim, 풀링 된 분산은 ” 결합 된 샘플 iv의 분산이 아닙니다. id = “bc2af58303”>

. 통계에서 ” pooled “는 가중 평균 을 의미합니다 (분산, 가중치와 같은 평균 수량을 말할 때 n ‘ s) 또는 그냥 sum (분산, 제곱합과 같은 합에 대해 말할 때) . 답에서 용어 (단어 선택)를 재고 해주세요.

  • 현재 주제와는 별개이지만 ” common ” 분산 개념. stats.stackexchange.com/q/208175/3277
  • 한시 옹. 저는 일반적으로 ” 풀링 “, 특히 ” 풀링 된 분산

    개념은 일반적으로 다음과 같은 가정이 필요하지 않습니다. 그룹은 동일한 분산을 가진 모집단에서 나왔습니다. 풀링은 단순히 혼합 (가중 평균 또는 합산)입니다. 통계적 가정을 추가하는 것은 ANOVA 및 유사한 상황에 있습니다.

  • 답변

    문제는 샘플을 연결하고 동일한 분포에서 나온 것으로 가정하는 분산을 추정하기 만하면 평균이 동일합니다. 그러나 우리는 일반적으로 평균이 다른 여러 샘플에 관심이 있습니다. 이것이 의미가 있습니까?

    답변

    풀링 된 분산의 사용 사례는 다음과 같은 분포에서 두 개의 샘플이있는 경우입니다.

    • 다른 수단을 가질 수 있지만
    • 동일한 분산이있을 것으로 예상합니다.

    이에 대한 예는 한 샘플에 대해 Alice의 코 길이를 $ n $ 번 측정하고 두 번째 샘플에 대해 Bob의 코 길이를 $ m $ 번 측정하는 상황입니다. 측정 오류로 인해 밀리미터 단위로 다양한 측정 값을 생성 할 가능성이 있습니다. 그러나 측정 오류의 분산은 측정하는 코에 관계없이 동일 할 것으로 예상합니다.

    이 경우에는 통합 분산을 사용하면 분산을 취하는 것보다 측정 오류의 분산을 더 잘 추정 할 수 있습니다. 하나의 샘플 만.

    댓글

    • 답변 해 주셔서 감사합니다.하지만 여전히 한 가지에 대해 이해하지 못합니다 ‘ . 첫 번째 데이터는 Alice ‘의 코 길이에 대한 분산을 제공하고 두 번째 데이터는 Bob에 대한 분산을 제공합니다 ‘의 코 길이. 해당 데이터에서 합동 분산을 계산하는 경우 실제로 무엇을 의미합니까? 첫 번째 분산은 Alice ‘에 대한 변동을 측정하고 두 번째 분산은 Bob ‘에 대한 변동을 측정하므로 추가 합동 분산을 계산하여 정보를 얻을 수 있습니까? 완전히 다른 숫자입니다.

    답변

    풀링 된 분산을 통해 우리는 a의 분산을 추정하지 않습니다. 더 작은 샘플을 사용하여 더 큰 샘플. 따라서 귀하가 제공 한 두 가지 예는 질문을 정확히 참조하지 않습니다.

    풀된 분산은 해당 모집단에서 무작위로 추출한 두 표본에서 모집단 분산의 더 나은 추정치를 얻기 위해 필요합니다. 다른 분산 추정치로.

    예를 들어 런던에서 남성의 흡연 습관의 분산을 측정하려고합니다. 런던에서 300 명의 남성을 두 번 샘플링합니다. 결국 두 가지 분산을 얻습니다 (아마 약간 다른 !). 이제 공정한 무작위 샘플링을 수행했기 때문에 (실력에 가장 적합합니다! 진정한 무작위 샘플링은 거의 불가능하므로) 두 분산 모두 인구 분산의 실제 포인트 추정치라고 말할 수있는 모든 권리를 갖습니다 (런던 남성 예).

    하지만 그게 어떻게 가능할까요? 즉 두 개의 다른 포인트 추정치 !! 따라서 우리는 풀링 된 분산 인 공통 포인트 추정치를 찾습니다. 이것은 두 포인트 추정의 가중 평균 일뿐입니다. 여기서 가중치는 각 샘플과 관련된 자유도입니다.

    이것이 명확하기를 바랍니다.

    답변

    대화에 너무 늦었지만 도움이되는 내용을 추가 할 수 있습니다.
    제 생각에는 OP는 두 샘플의 가중 평균으로 풀링 된 변동성 추정치 $ \ hat \ sigma_ {pooled} $ 가 필요한 이유 (무엇을 위해)를 알고 싶어합니다. 분산 또는 표준 편차).

    내가 알고있는 한 주요 실용적 (하위) 그룹의 평균을 비교하고 싶을 때 일종의 분산 측정이 발생합니다. 따라서 1) 유전자 치료를받지 않은 사람, 2) 유전자 치료를받은 사람과 3)의 평균 코 길이를 비교하고 싶다면 유전자 치료를받은 사람들 B.
    평균 길이 차이 (mm)를 더 잘 비교할 수 있도록 평균 차이를 나눕니다. $ e = \ bar x_ {Control}-\ bar x_ {GTA} = 30mm-28mm = 2mm $ 변동 추정치 (여기서는 표준 편차 ation). 합동 분산의 제곱근 크기 (합동 표준 편차)에 따라 이러한 그룹 간의 2mm 차이 크기를 더 잘 판단 할 수 있습니다 (예 : $ d = 2mm / 0.5mm = 4 $ vs. $ d = 2mm / 4mm = 0.5 $ -> 유전자 치료 A는 코 길이에 어떤 것이 있습니까? 그렇다면 얼마입니까? 언제 $ d = 4 $ 또는 $ 2 \ pm 0.5mm $ ” 안정된 ” 또는 ” 일관된

    또는 ” big ” (가변성 비교) $ d = 0.5 $ 또는 $ 2 \ pm 4mm $ 비교적 말이 많지 않은 것 같습니다. 두 그룹 내의 모든 값이 동일하므로 변동성이 없습니다. 그룹에서 $ d $ 는 정의되지 않지만 해석은 $ 2 \ pm 0mm = 2mm $ span입니다. > 정확히).
    이것은 효과 크기 의 아이디어입니다 (제가 아는 한 Neyman과 Pearson에 의해 이론적으로 처음 소개되었지만 이전에 잘 사용 된 어떤 종류의 경우 Stigler, 1986 참조). , 예).
    제가하는 일은 그룹 간의 평균 차이를 동일한 그룹 내 평균 차이, 즉 가중 평균 분산 (표준 편차)과 비교하는 것입니다. 이는 (하위) 그룹 간의 평균 차이를 ” 전체 ” 그룹 내의 평균 차이와 비교하는 것보다 더 의미가 있습니다. , (Hanciong)이 보여준 것처럼 전체 그룹의 분산 (및 표준 편차)에는 그룹 평균의 차이도 포함됩니다.

    측정에 대한 이론적 필요성은 $ t $ -분포는 평균 차이에 대한 기대 값 (예 : Null-Hypothesis-Significance-Test에 대한 p- 값)에서 관측 된 평균 차이 또는 더 극단적 인 차이에 대한 확률을 찾습니다. , NHST 또는 Neyman-Pearson 가설 검정 또는 Fisher 가설 검정, 신뢰 구간 등) : $ p (e \ ge e_ {observed} | \ mu_e = 0) $ .
    내가 알고있는 한 $ t $ -분포 (특히 $ F $ -비교할 평균이 2 개 이상인 경우 분포)는 두 표본 (또는 모든 표본)이 분산이 동일한 모집단에서 추출 될 때만 확률에 대한 정확한 추정치를 제공합니다 (지시 된대로 분산의 동질성). 이미 다른 답변에서; 이것은 m에서 (자세히) 자세히 설명해야합니다. ost 통계 교과서). 모든 분포는 정규 분포 ( $ t $ , $ F $ , $ \ chi ^ 2 $ )는 0보다 크고 $ \ infty $ 보다 작은 분산을 가정하므로 다음과 같습니다. 내 변동성이 0 인 케이스에 대한 p- 값을 찾을 수 없습니다 (이 경우 정규 분포에서 표본을 추출했다고 가정하지 않을 것임이 분명합니다).
    (이것은 또한 직관적으로 합리적으로 보입니다 : 원하는 경우 두 개 이상의 평균을 비교하려면 해당 평균의 정밀도가 동일하거나 적어도 비교할 수 있어야합니다.
    코 길이가 매우 유사한 사람들에게 유전자 요법 A를 실행하면 $ \ bar x \ pm 0.5mm $ 하지만 내 통제 그룹에는 코 길이의 가변성이 높은 그룹이 있습니다. $ \ bar x \ pm 4mm $ 이러한 평균을 직접 비교하는 것은 공정하지 않은 것 같습니다. 동일한 ” 평균 의미 “; 사실 내 대조군에서 훨씬 더 높은 분산 / 표준 편차는 더 많은 하위 그룹을 나타낼 수 있습니다. 일부 유전자의 차이로 인한 코 길이의 차이 일 수 있습니다.)

    답글 남기기

    이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다