평균, 표본 크기 및 신뢰 구간에서 표준 편차를 다시 계산할 수 있는지 궁금합니다.
예 : 평균 연령 = 40.2; 표본 크기 = 427; 95 % 신뢰 구간 = (38.9-41.5)
그렇다면 백분율 측정에 적용 할 수 있습니까? 예를 들어 : 남성이되는 백분율 = 64.2 %; 표본 크기 = 427; 및 95 % 신뢰 구간 = (59.4-68.7).
설명
- 정규 분포를 가정하는 경우 신뢰 구간은 엄격하게 표본 표준 편차의 함수입니다. 다른 변수 평균과 표본 크기가 제공됩니다. ' " 백분율 측정 값 "이 무엇을 의미하는지 모르겠습니다. 그래서 저는 ' 당신을 도울 수 없습니다.
- 백분율 측정으로 저는 단순히 샘플의 64.2 %가 남성이라는 것을 의미했습니다.
답변
-
비율 / 비율의 표준 편차는 다음과 같습니다.
\ begin {align} \ sigma & = \ sqrt {p (1-p)} \\ [5pt] & = \ sqrt {0.642 (1-0.642)} \\ [5pt] & = 0.4792 \ end {align} 따라서 백분율이 주어지면 표준을 직접 찾을 수 있습니다. 편차. -
역 추적 의 경우 $ CI = p \ pm z \ frac {\ sigma} {\ sqrt {N}} $
95 %의 경우 $ z = 1.96 $ , N = 427, $ p = 0.642 $
$ \ sigma =? $
그러므로 위의 공식을 사용하고 역 대체하십시오.
- 샘플 크기가 30 미만 (N < 30) , t- 값을 사용해야합니다. Z- 값 대신 ( t- 값 계산기 ). t- 값은 자유도 $ df = N-1 $ 및 $ {\ rm prob} = (1- \ alpha) / 2 $ .
따라서 공식은 다음과 같습니다. $ CI = p \ pm t _ {(N-1) } \ frac {\ sigma} {\ sqrt {N}} $
설명
- 이 방법은 중심 극한 정리를 사용하고 따라서 큰 $ N $ 한도에서만 정확합니다.
- 맞습니다. 질문의 표본 크기가 크므로 수식을 입력했습니다. > 30. 그래서 CLT가 이미 적용되었습니다. 더 작은 표본 크기의 경우 적절한 자유도를 가진 Z 분포 대신 T- 분포를 사용할 수 있습니다.
- $ \ sigma = \ sqrt (p ∗ (1−p)) $는 Bernoulli 분포에 적용됩니다. 다른 배포판에는 적용되지 않습니다.
Answer
파티에 조금 늦었지만 질문의 두 번째 부분은 완전히 해결되지 않았습니다. “백분율 측정에 적용 할 수 있습니까?”
OPs 주석에 따라 “백분율 측정”에 의해 일부 이진 결과를 참조한다고 가정합니다 ( 남성 / 여성, 오른 손잡이 / 왼손잡이 등).
이 경우 변수는 이산 확률 분포로 설명되는 반면 연령은 연속 변수이며 연속 확률 분포로 설명됩니다. 이항 변수 분포에 대한 일반적인 선택은 이항 분포입니다. 이항에 대한 신뢰 구간은 다양한 방법으로 구성 할 수 있습니다 ( wiki ). 원래 연구에서는 이러한 신뢰 구간을 어떻게 도출했는지 해야 합니다.
사용자 3808268이 제공 한 공식을 계속 사용하여 “표준 편차”를 얻을 수 있지만 의미있게 해석하기 어렵습니다.
답변
제공 한 설명에서 첫 번째 질문은 사람들의 연령 분포에 관한 것입니다. 일반 (예 : 가우스 ) 분포는 이러한 종류의 응용 프로그램에 적용됩니다.
CI를 계산하는 방법에는 여러 가지가 있으므로 CI (신뢰 구간) 계산 방법을 알고 있으면 도움이됩니다. 예를 들어, 분포는 정규 분포이고 CI는 t- 검정을 사용하여 계산되었으며 SD는 다음 방정식으로 추정 할 수 있습니다.
SD = sqrt (n) * (ci_upper-ci_lower) / (2 * tinv ((1-CL) / 2; n-1)),
여기서 CL은 신뢰 수준이고 ci_upper및 ci_lower는 각각 CI의 상한 및 하한이며 “tinv () “는 Student”s T cdf의 역입니다.
그렇지 않으면 정규 분포이지만 알려진 SD가 CI 계산에 사용 된 경우 다음 방정식으로 SD를 계산할 수 있습니다.
SD = sqrt (n) * (ci_upper-ci_lower) / (sqrt (8) * erfinv (CL)),
wh “erfinv ()”는 역 오류 함수입니다.
두 번째 질문은 사람들의 성별 (즉,남성 또는 여성). 제공 한 데이터에서 전체 샘플 n = 427 중 k = 274 남자가있는 것으로 들립니다. Bernoulli 배포는이 응용 프로그램에 적용됩니다. 이 경우 분산 (남성 모집단) = p * (1-p) = 0.2299, SD = sqrt (0.2299) = 0.4795입니다. 여기서 p는 평균값입니다. " valiance = mean * (1-mean) "는 Bernoulli 배포에만 적용됩니다.