응답자 연령에 대한 히스토그램을 만들고 매우 멋진 종 모양의 곡선을 얻었습니다. 이로부터 분포가 정상이라고 결론지었습니다.
그런 다음 SPSS에서 n = 169로 정규성 테스트를 실행했습니다. Kolmogorov-Smirnov 테스트의 p -값 (Sig.)은 0.05 미만입니다. 따라서 데이터가 정규성 가정을 위반했습니다.
검사 결과 연령 분포가 정상이 아닌데 왜 히스토그램에 종 모양의 곡선이 나타 났는데, 제 이해로는 정상입니까? 어떤 결과를 따라야합니까?
댓글
- 정상 성을 테스트하는 이유는 무엇입니까?
- @Glen_b ‘의 훌륭한 댓글 및 Aksakal ‘ s 똑같이 훌륭한 대답 , 연속 분포의 경우에도 KS는 평균과 sd가 데이터에서 추정되지 않고 사전에 알려짐 을 요구합니다. 이것은 본질적으로 K-S 테스트를 쓸모 없게 만듭니다. ” Kolmogorov-Smirnov 테스트는 역사적인 호기심 일뿐입니다. 절대 사용해서는 안됩니다. ” (D ‘ Agostino in d ‘ Agostino & Stephens, eds., 1986). 아예 Shapiro-Wilks를 대신 사용하세요.
- @Stephan Kolassa 좋은 조언이지만 Shapiro-Wilk를 의미합니다. (MB Wilk 및 SS Wilks의 제안은 종종 혼동되거나 혼동됩니다. 여기서 영어에서 소유격으로 ‘를 이상하게 사용하면 영어를 가진 많은 사람들에게도 혼란을 일으킬 수 있습니다. 모국어로 사용합니다.)
- @StephanKolassa의 주석과 관련하여 Shapiro-Wilk가 최고의 정규성 테스트입니까? … 대답은 ‘ 어떤 대안에 관심이 있는지에 따라 반드시 필요한 것은 아니지만 ‘ 매우 좋은 선택이라는 것입니다. .
답변
일반적으로 알고 있습니다. 변수가 정확히 정규 분포를 따르는 것은 불가능합니다 …
정규 분포는 어느 방향 으로든 무한히 긴 꼬리를 가지고 있습니다. -데이터가 이러한 극단에서 멀리 떨어져있을 가능성은 낮지 만 진정한 정규 분포의 경우 물리적으로 가능해야합니다. 연령의 경우 정규 분포 모델은 평균보다 5 표준 편차 위 또는 아래에있는 데이터의 0이 아닌 확률이 있음을 예측합니다. 이는 0 미만 또는 150 이상과 같이 물리적으로 불가능한 연령에 해당합니다. 인구 피라미드 , 애초에 나이가 거의 정규 분포를 보일 것으로 예상하는 이유가 명확하지 않습니다.) 마찬가지로 신장 데이터가있는 경우 직관적으로보다 “정상적인”분포를 따를 수 있지만, 높이가 0cm 미만이거나 300cm 이상일 경우에만 정말 정상일 수 있습니다.
I “ve 데이터를 평균 0이되도록 중앙에 배치하여이 문제를 피할 수 있다는 제안을 가끔 보았습니다. 그렇게하면 긍정적이고 부정적인 “중심 연령”이 모두 가능합니다. 그러나 이로 인해 음수 값이 물리적으로 그럴듯하고 해석 가능해 지지만 (중심 음의 값은 평균 아래에있는 실제 값에 해당), 일단 정상 모델이 0이 아닌 확률로 물리적으로 불가능한 예측을 생성한다는 문제는 해결하지 못합니다. 모델링 된 “중심 연령”을 “실제 연령”으로 다시 디코딩합니다.
… 그러면 테스트가 귀찮은 이유는 무엇입니까? 정확하지 않더라도 정규성은 여전히 유용한 모델이되어야합니다.
중요한 질문은 “데이터가 정확히 정상인지 여부가 아닙니다. 우리는 다음을 수행 할 수있는 사전 을 알고 있습니다. “대부분의 상황에서는 가설 테스트를 실행하지 않아도 가능하지만 근사치가 귀하의 요구에 충분히 근접한지 여부는 질문을 참조하십시오. 정규성 테스트는 본질적으로 쓸모가 없습니까? 정규 분포는 여러 목적을위한 편리한 근사치입니다. “정확하지 않은”경우는 거의 없지만 일반적으로 정확할 필요는 없습니다. 유용하도록 정확합니다. 나는 정규 분포가 일반적으로 사람들의 키에 대해 합리적인 모델이 될 것으로 기대하지만, 정규 분포가 사람들의 연령 모델로 이해 되려면 더 특이한 컨텍스트가 필요합니다.
정규성 테스트를 수행 할 필요가 있다고 느끼는 경우 Kolmogorov-Smirnov는 아마도 “최고의 옵션이 아닐 것입니다. 주석에서 언급했듯이 더 강력한 테스트를 사용할 수 있습니다. Shapiro-Wilk는 가능한 다양한 대안에 대해 좋은 힘을 가지고 있으며 “사전에 실제 평균과 분산을 알 필요가 없다는 장점이 있습니다 .그러나 작은 샘플에서는 잠재적으로 정규성에서 상당히 큰 편차가 여전히 감지되지 않을 수 있으며, 큰 샘플에서는 매우 작은 (실제적인 목적으로 관련이없는) 편차가 “매우 중요”(낮음 p -값).
“종 모양”이 반드시 정상일 필요는 없습니다.
종 모양데이터 (중간에서 정점을 이루고 꼬리에서 확률이 낮은 대칭 데이터)를 정규라고 생각하는 것 같습니다. 그러나 정규 분포는 정점과 꼬리에 특정 모양이 필요합니다. 언뜻보기에 비슷한 모양을 가진 다른 분포도 있습니다. “종 모양”으로 특성화되었을 수도 있지만 정상이 아닙니다. “ 많은 데이터를 가지고 있지 않다면,”기성 배포판처럼 보이지만 다른 배포판과 같지 않다 “는 것을 구별 할 수 없을 것입니다. 그리고 데이터가 많은 경우 “기성품”배포판처럼 전혀 아주 보이지 않을 것입니다! 그러나이 경우 여러 목적으로 “ 경험적 CDF 를 사용하는 것이 좋습니다.
종 모양 ” 분포 갤러리
정규 분포 는 익숙한 “종 모양”입니다. Cauchy 는 더 날카로운 봉우리와 “무거운”(즉, 더 많은 확률) 꼬리; 자유도가 5 인 t 분포 는 그 사이 어딘가에 있습니다 (법선은 t 무한 df 및 Cauchy는 1df의 t 이므로 의미가 있습니다. Laplace 또는 이중 지수 분포 는 두 개의 재조정 된 지수 분포로 구성된 pdf로 정규 분포보다 더 날카로운 피크가 나타납니다. 베타 분포 는 매우 다릅니다. 그렇지 않습니다. 인피니로 향하는 꼬리가 예를 들어, 대신 날카로운 컷오프가 있지만 여전히 중간에 “고비”모양을 가질 수 있습니다. 실제로 매개 변수를 가지고 놀아 보면 일종의 “비뚤어진 혹”또는 “U”모양을 얻을 수도 있습니다. 링크 된 Wikipedia 페이지의 갤러리는 해당 분포의 유연성에 대해 매우 유익합니다. 마지막으로 삼각 분포 는 유한 지원에 대한 또 다른 간단한 분포로, 위험 모델링에 자주 사용됩니다.
이러한 분포 중 어느 것도 귀하를 정확하게 설명하지 못할 가능성이 높습니다. 데이터와 비슷한 모양을 가진 매우 많은 다른 분포가 존재하지만 “중간에서 윙윙 거리고 대략 대칭은 정상을 의미한다”는 오해를 해결하고 싶었습니다. 연령 데이터에 물리적 인 제한이 있기 때문에 연령 데이터가 중간에 “고개”가있는 경우 베타 또는 삼각형 분포와 같은 유한 지원 분포가 다음과 같은 무한 꼬리를 가진 분포보다 더 나은 모델임을 입증 할 수 있습니다. 데이터가 실제로 정규 분포를 따른 경우에도 표본 크기가 상당히 크지 않는 한 히스토그램은 여전히 고전적인 “종”과 비슷하지 않을 수 있습니다. Laplace와 같은 분포의 표본도 pdf와 명확하게 구별됩니다. 첨두로 인해 정상의 경우, 실제 일반 샘플과 비슷하게 시각적으로 보이는 히스토그램을 생성 할 수 있습니다.
R 코드
par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)
답변
연령은 정상일 수 없습니다. 배포. Think log ically : 당신은 음의 나이를 가질 수 없지만 정규 분포는 음수를 허용합니다.
종 모양의 분포가 많이 있습니다. 어떤 것이 종 모양으로 보인다고해서 그것이 정상이어야한다는 의미는 아닙니다.
데이터의 출처를 포함하여 통계에서 어떤 것을 확실히 알 수있는 방법은 없습니다. 단서 : 종 모양은 정규 분포의 한 인수입니다. 또한 데이터를 이해하는 것이 매우 중요합니다. 연령과 같은 변수는 종종 왜곡되어 정규성을 배제합니다. 언급했듯이 정규 분포에는 경계가 없지만 때로는 사용됩니다. 예를 들어 평균 연령이 20 세이고 표준 편차가 1 인 경우 연령 < 17 또는> 23 일 확률은 0.3 % 미만입니다. 따라서 , 정규 분포보다 좋은 근사치 가 될 수 있습니다.
왜도 및 첨도를 고려하는 Jarque-Bera와 같은 정규성에 대한 통계 테스트를 실행할 수 있습니다. 첨도는 어떤 경우에는 중요 할 수 있습니다.데이터를 정규 분포로 모델링하지만 실제로는 팻 테일 분포에서 가져온 데이터이기 때문에 금융에서 매우 중요합니다. 결국 자산의 위험과 가격을 과소 평가할 수 있습니다.
평균, 분산, 왜도, 첨도 등의 설명 통계 나 나이 및 키 데이터의 히스토그램을보고하면 도움이 될 것입니다.
댓글
- 도움을 주셔서 감사합니다. 예를 들어 특정 데이터가 정규 분포에서 온다는 것을 아는 방법을 알려주시겠습니까? 꼭 알아 두세요. 처음이라 개념을 잘못 이해 한 것 같아서 더 알고 싶어요. 다시 한 번 감사드립니다.
- 하지만 정규 분포는 종종 연령과 같은 변수에 대한 근사치 로 사용됩니다.
age_centred
를 평균이 0이고 표준 편차, 양수 및 음수 값이있는 변수가 있습니다. 그래서 저는 ‘ 그렇게 엄격하지 않을 것입니다. - 사람들에게도 음수 키를 가질 수는 없지만 ‘ 좋은 근사치라면 높이를 정규 분포로 설명하는 데 장애가되지 않습니다. 그 문제에 대해 유한 할 수있는 측정에 무한 경계를 가진 분포를 사용하는 이유는 무엇입니까? @Tim이 말했듯이 데이터와 목적을 고려할 때 허용되는 근사치의 문제입니다.
- 정규 분포가 제한된 데이터에 대해 좋은 근사치 가 될 수 있다는 데 동의합니다. 하지만 문제는 데이터가 정상인지 아닌지에 대한 것이 었습니다.
- 고등학교 졸업생의 나이는 잠재적으로 정규 분포를 따르고 @Tim이 언급 한 것처럼 평균을 중심으로하면 음의 값을 취할 수 있습니다.
- li>