저는 응답 변수가 “X가있는 사이트의 비율”인 존재 / 부재 데이터 데이터 세트를 작업 중입니다. 평균 비율과 함께 표준 편차를 제공하라는 요청을 받았습니다. 그러나 이항 데이터 세트의 표준 편차는 비율 자체의 다항 함수이며 기본 데이터의 변동성에 대한 추가 정보를 부여하지 않는 것으로 보입니다. 예를 들어 데이터의 비율이 0.3 인 경우 해당 비율이 10 개, 100 개 또는 100,000 개 사이트의 존재 / 부재 데이터에서 파생되었는지 여부는 중요하지 않습니다. 표준 개발은 동일해야합니다.
시기 샘플 데이터 세트와 그래프 평균 비율 vs st dev를 만들고, R 제곱이 1.00 인 6 차 다항식 함수로 모델링 할 수 있습니다.
그러면 누군가 내 의심을 확인할 수 있습니다. 이항 데이터 세트에서 비율의 고유 한 속성이므로 해당 비율이 생성 된 데이터 세트에 대한 추가 정보를 생성하지 않습니까?
댓글
- 크기가 $ n $ 인 데이터 세트의 $ p $ 비율에 대해 총 SD가 $ \ sqrt {np (1-p)} $이기 때문에 SD를 2 차 함수의 제곱근으로 더 잘 모델링 할 수 있습니다. .
- @whuber : 이항 변수 (따라서 성공 횟수 의 경우)의 표준 편차는 $ \ sqrt {np (1-p)} $라고 생각합니다. , 그러나 성공의 비율 에 대해 sta 표준 편차는 $ \ sqrt {\ frac {p (1-p)} {n}} $입니다.이 질문에 대한 제 답변을 참조하십시오.
- @fcoppens 맞습니다. 그래서 제가주의를 기울인 이유입니다. 이것을 전체의 SD로 설명하세요.
- @whuber : 좋습니다. 그럼 :-), 제 답변을 보셨나요?
- 원고의 리뷰어가 이것을 요청한 경우 , 검토자가 표준 오차와 같은 추정 된 비율에 대한 정밀도 측정을 의미했을 수 있습니다. ' " 모든 추정에 대해 항상 정밀도를 제공해야하는 법이 없습니까? " 검토자가 실제로 표준 편차를 의미했다면 표준 오류가 더 나은 이유에 대한 외교적 응답이 효과적 일 수 있습니다.
답변
이항 확률 변수 $ X $, 크기 $ N $, 성공 확률 $ p $ (예 : $ X \ sim Bin (N; p) $)이있는 경우 평균 X의 분산은 $ Np $이고 분산은 $ Np (1-p) $이므로 분산이 $ p $에서 2 차 다항식이라고 말하면됩니다. 그러나 분산은 $ N $에도 의존합니다. 후자는 $ p $를 추정하는 데 중요합니다.
100 번에서 30 번의 성공을 관찰 한 경우 성공률은 30/100이며 성공 횟수를 이항의 크기로 나눈 값입니다 (예 : $ \ frac {X} {N} $).
하지만 $ X $의 평균이 $ Np $이면 $ \ frac {X} {N} $의 평균은 $ N $가 $ N $로 나눈 평균과 같습니다. 상수. 즉, $ \ frac {X} {N} $은 $ \ frac {Np} {N} = p $를 의미합니다. 이것은 관찰 된 성공률이 확률 $ p $의 편향되지 않은 추정량이라는 것을 의미합니다.
추정기 $ \ frac {X} {N} $의 분산을 계산하려면 $ X $의 분산을 $ N ^ 2 $ (a의 분산을 a 상수)는 (변수의 분산)을 상수의 정사각형 로 나눈 값이므로 추정량의 분산은 다음과 같습니다. $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. 추정량의 표준 편차는 분산의 제곱근이므로 $ \ sqrt {\ frac {p (1-p)} {N}} $입니다.
따라서 동전을 100 번 던지고 앞면 49 개를 관찰하면 $ \ frac {49} {100} $는 해당 동전으로 머리를 던질 확률과 표준 편차를 추정합니다. 이 추정치의 $ \ sqrt {\ frac {0.49 \ times (1-0.49)} {100}} $입니다.
코인을 1000 번 던지고 앞면 490 개를 관찰하면 확률을 추정합니다. $ 0.49 $에 다시 머리를 던지고 $ \ sqrt {\ frac {0.49 \ times (1-0.49)} {1000}} $에 표준 devtaion이 있습니다.
분명히 두 번째 경우의 경우 표준 편차가 더 작으므로 던지기 횟수를 늘릴 때 추정량이 더 정확합니다.
이항 랜덤 변수의 경우 분산이 p의 2 차 다항식이라는 결론을 내릴 수 있지만 N에도 의존하며 편차에는 성공 확률에 대한 추가 정보가 포함되어 있습니다.
사실 이항 분포에는 두 개의 매개 변수가 있으며 항상 최소 2 개의 모멘트가 필요합니다 (여기서는 평균 (= 첫 번째 모멘트) 및 표준 편차 (두 번째 모멘트의 제곱근))를 사용하여 완전히 식별합니다.
P.S. 포아송 이항에 대한 좀 더 일반적인 개발은 푸 아송 이항 분포에 대한 추정 정확도 추정 에 대한 제 답변에서 찾을 수 있습니다.
답변
Bernouli 분포 계열은 일반적으로 $ p $라고하는 하나의 숫자로 완전히 매개 변수화됩니다. 따라서 Bernouli 분포의 모집단 통계는 매개 변수 $ p $의 일부 함수 반드시 입니다. 그렇다고 그 통계가 설명 적으로 쓸모 없다는 의미는 아닙니다!
예를 들어 상자의 길이, 너비 및 높이를 제공하여 상자를 완전히 설명 할 수 있지만 볼륨은 여전히 유용한 통계입니다!
댓글
- 잠깐, 맞습니까? ' 베르누이 배포를 의미하지 않습니까? 변경해야 할 것 같지만 찬성표가 몇 개 있습니다 …
- 그렇습니다. ' Bernouli와 이항은 매우 밀접하게 연결되어 있습니다. 내가 수정했습니다.
답변
당신은 만약 em> 당신은 이미 이항 매개 변수 $ p $의 진정한 가치를 알고 있었고 실제로 이항 실험 ($ p $ 상수에서 독립적 인 Bernoulli 시행)을 다루고 있다는 것을 알고있었습니다. $ N $ 사례의 경우 이항 실험에서 성공 횟수의 분산은 $ N p (1-p) $이고 (순수) $ N $로 나누어 성공 비율의 분산을 구하면 값이 제공됩니다. $ N $와 무관합니다. 그러나 이것에는 두 가지 문제가 있습니다. 첫째, $ p $의 가치를 알고 있었다면이 분석을 수행 할 필요가 없습니다. 둘째, @ f-coppens가 지적했듯이 관찰 된 성공 비율의 분산을 결정하는이 순진한 접근 방식은 올바르지 않습니다.
현재 $ N $ 사례의 샘플을 기반으로 한 추정치 $ p $입니다. 추정치 $ p $ 주변의 신뢰 구간은 $ N $의 값에 따라 달라지며 대략 제곱근으로 개선됩니다. 조사자가이 점을 확인하려고하는 것 같습니다. 신뢰 구간에 대한 공식은 이항 분포 의 Wikipedia 페이지를 참조하세요. 그리고 이것은 모든 샘플이 단일 매개 변수 $ p $로 모델링되었는지 여부조차 파악하지 못합니다.
주석
- 변수를 상수 N으로 나누면 분산을 $ N ^ 2 $로 나눠야합니다! 이 질문에 대한 내 대답을 참조하십시오.
- @ f-coppens 나는 수정되었고 그에 따라 내 대답을 편집했습니다. 감사합니다.