다음과 같은 특성을 가진 데이터 세트가 있는데 머리를 감쌀 수없는 것 같습니다. “Three st.dev.s에는 데이터의 99.7 %가 포함되어 있습니다.”라는 말은 내가 나 자신에게 말하는 것이지만 잘못된 단어 인 것 같습니다.
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
이것은 나에게 알려줍니다. 데이터의 99.7 %가 30과 48에 속하지만 100 % 데이터가 34와 46에 속하므로 말이되지 않습니다. 샘플이 전체 모집단을 대표하지 않는다는 의미입니까? 내 말은, 분명히 그렇지는 않지만 34 세 미만, 46 세 이상의 인간이 존재한다는 것을 내가 모른다고 가정하자. 그런데 이것은 변수 age
Stata 샘플 데이터 세트 nlsw88.dta
의 div>.
이 질문 을 살펴 보았습니다. 그러나 그것은 나의 두뇌 매듭을 풀어주는데도 도움이되지 않습니다. 물어볼 곳.
편집 : 그저 많은 질문이 있다는 것을 깨달았습니다. 답이 필요한 헤더 질문을 고려하십시오. 나머지는 내 엉망인 사고 과정에 불과합니다.
댓글
- 최소 및 최대는 인구의 최소 및 최대입니다. 당신은 관찰 했습니다. 표준 편차는 표본 모집단에서 계산됩니다. 관찰 된 표본과 동일한 특성과 정규 분포를 가진 무한히 큰 모집단을 가정하면 99.7 %의 사람들이 30 ~ 48 세 사이에있을 것입니다. 그 결과 초기 표본이 더 작은 사람을 관찰하려면 더 커야했습니다. 34 이상.
답변
“ 3 개의 st.dev.s에는 데이터의 99.7 %가 포함됩니다.”
이러한 진술에 몇 가지주의 사항을 추가해야합니다.
99.7 %는 정규 분포 에 대한 사실입니다. 모집단 값의 99.7 %는 모집단 평균의 3 개 모집단 표준 편차 내에 있습니다.
큰 샘플 * 정규 분포는 일반적으로 대략적인 경우입니다. 데이터 의 약 99.7 %는 표본 평균의 표본 표준 편차 3 개 내에 있습니다 (정규 분포에서 표본을 추출한 경우 표본은 다음과 같아야합니다. 거의 사실이 될 수있을만큼 충분히 큽니다. 해당 크기의 샘플로 $ 0.9973 \ pm 0.0010 $를받을 확률이 약 73 % 인 것 같습니다.
* 무작위 샘플링 가정
하지만 정규 분포의 표본이 없습니다.
분포 형태에 제한을 두지 않으면 평균의 3 표준 편차 내 실제 비율이 높거나 높을 수 있습니다. 더 낮습니다.
$ \ qquad \ qquad ^ \ text { 평균 2sds 내에 분포의 100 %가 포함 된 분포의 예} $
3stan 내의 분포 비율 평균의 편차는 88.9 %만큼 낮을 수 있습니다. 99.7 %를 얻으려면 18 개 이상의 표준 편차가 필요할 수 있습니다. 반면에 1 표준 편차 미만의 좋은 거래 내에서 99.7 % 이상을 얻을 수 있습니다. 따라서 99.7 %의 경험 법칙은 “분포 형태를 약간 고정하지 않는 한 큰 도움이되지 않습니다.
기대를 약간 완화하면 (매우”대략 “99.7 %에 불과) 규칙이 모든 상황에서 항상 작동하는 것은 아니라는 점을 염두에두기 만하면 정규성을 요구하지 않고 유용 할 때도 있습니다.
댓글
- 88.9 %가 en.wikipedia.org/wiki에서 나온 것 같습니다. / Kolmogorov % 27s_inequality . Probability 클래스는 꽤 잘했지만 몇 년 전 이었어요.
- @emory ' 그냥 chebyshev ' s 부등식 🙂
- @Ant 감사합니다. 맞습니다. en.wikipedia.org/wiki/Chebyshev%27s_inequality
- 예, 그렇습니다. ' s Chebyshev '의 불평등
답변
짧은 답변 표본이 정규 분포를 정확히 따르지 않았기 때문에 기본 가정, 특히 정규 분포 모집단에 대해 작업하도록 설계된 도구를 적용 할 수있는 가정을 다시 검토해야 할 수도 있습니다.
그냥 깨달음을 위해 질문을 다른 방향으로 돌리십시오. 표본이 정규 분포 된 경우 평균적으로 30-48 범위를 벗어난 6 개의 데이터 포인트를 생성하기 위해 ~ 2000의 표본 크기가 예상됩니다. 당신의 것은 그렇지 않습니다. “당신의 더 넓은 모집단이 정규 분포를 따르고 있다고 가정하여 당신이 내리는 모든 예측에 대해이 정규 편차의 중요성은 무엇입니까?”
따라서이 작은 이상 현상의 더 넓은 의미는 표본이 정규 분포와 크게 다르지는 않지만 더 큰 정규 분포 모집단을 나타낸다고 가정 한 일부 예측은 본질적으로 결함이있을 수 있으며 약간의 자격 또는 추가 조사가 필요합니다. 그러나이 정상 편차의 가능성과 묵시적 오류 한계 및 결과 예측의 신뢰성을 추정하는 것은 다행스럽게도 여기에있는 다른 많은 답변에서 살펴 보았지만 제 능력 수준을 훨씬 뛰어 넘습니다!
그러나 결과를 완전히 면밀히 조사하고 결과가 진정으로 의미하는 바가 무엇인지, 원래 가설을 증명하는지 여부에 대해 질문하는 좋은 습관이 있습니다. 데이터에서 밝혀진 추가 이상 (예 : Kurtosis 및 Skew)을 찾아 어떤 단서가 있는지 확인하십시오. 그들은 당신의 인구를 더 잘 나타내는 것으로 다른 분포를 드러내거나 고려할 수 있습니다.
댓글
- 그건 또는 순수한 무작위성에서 범위에 데이터 포인트가 없습니다.
Answer
“Three st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) 데이터의 99.7 % 포함”은 가우스 분포를 나타냅니다. 일반적으로 분포의 경우 Chebyshev의 부등식은 평균 $ k $와 함께 확률 질량의 양에 하한을 둡니다. 그러나 상한이 있습니까?
$ p $ = 인 Bernoulli 분포의 경우 .5, $ \ sigma $는 .5. 평균 $ \ mu $도 .5이며, 이는 분포의 100 %가 $ 1 \ sigma $ 또는 $ \ mu $ 내에 있음을 의미합니다. 더 작은 수의 표준 편차는 어떻습니까? ?
참고 : 다음은 단순하게하기 위해 $ \ mu = 0 $ 인 배포에 대한 논쟁입니다. 임의의 $ \ mu $를 사용한 배포에 대한 확장은 상당히 사소합니다.
Given $ \ varepsilon $ 및 $ M $ 양수이면 $ \ varepsilon / 2 $ 확률 질량 $ \ leftarrow M $ 및 $ \ varepsilon / 2 $ 확률 질량 $ \ gt M $이있는 분포가 있습니다. 즉,
$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $
다른 모든 것, $ M \ to \ infty $, $ \ sigma \ to \ infty $. 그러나 고정 된 양수 $ N $의 경우 $ M $가 $ N $를 초과하면 $ N $ 내에서 0의 확률 질량은 항상 $ 1- \ varepsilon $, re $ M $에 관계없이. 따라서 0으로부터의 상대 거리 (즉, 표준 편차의 수는 $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $)를 보면 $ M \ to \ infty $, 우리는 $ n \ to \ infty $를 가지고 있습니다. 여기서 $ n $는 “$ 1- \ varepsilon $ 확률이 $ \ mu $의 $ n \ sigma $ 이내”가 참인 가장 큰 정수입니다.
양수 $ \ varepsilon $ 및 $ n $에 대해 0에서 $ n \ sigma $ 이상이 될 확률이 $ \ varepsilon $보다 작은 분포가 있음을 보여줍니다. 예를 들어 0에서 .000001 $ \ sigma $보다 작을 99.999 %의 확률을 원하면이를 충족하는 분포가 있습니다.