이것은 비뚤어진 분산입니까 아니면 바이 모달입니까?

이 분포는 오른쪽으로 치우쳐 있고 바이 모달 일 수 있습니다. 아니면 그냥 똑바로 치우쳐 있습니까?

여기에 이미지 설명 입력

댓글

  • 먼저 이 답변 을 살펴보세요.
  • 히스토그램 만 가지고 있습니까?

답변

히스토그램이 실제로 데이터가 추출 된 분포 (분명히 부분적으로 균일 한 분포가 될 것입니다), 두 개 이상의 모드가 분명히 있기 때문에 올바른 왜곡 (대부분의 합리적인 측정에 의한) 및 다중 모드라고 말할 수 있습니다.

그러나 아마도 우리는 히스토그램을 사용하여 인구 분포에 대해 추론하려고합니다.

여기에 두 가지 문제가 있습니다.

  1. 표본 변동 ( “노이즈”)에서 표본에서 보는 내용을 알려주는 일반적인 방법입니다. 치우 치지 않은 모집단을 샘플링하면 확실히 치우친 것처럼 보이는 샘플이 생성 될 수 있으며, 단봉 인 모집단을 샘플링하면 둘 이상의 모드가있는 것처럼 보일 수있는 샘플이 생성 될 수 있습니다.

  2. 히스토그램의 모양은 때때로 bin-width 및 bin-origin의 선택에 의해 큰 영향을받을 수 있습니다 . 질문의 히스토그램에 많은 빈이 있다는 사실은 이러한 종류의 문제의 범위와 빈도를 완화하는 데 도움이되지만 여전히 발생할 수 있습니다.

원본 샘플은 두 개 이상의 디스플레이를 고려하여 두 번째 문제를 더 크게 피할 수 있습니다. 몇 가지 다른 빈 너비 및 빈 출처에 대해 히스토그램을 수행 할 수있을뿐만 아니라 다른 디스플레이도 사용할 수 있습니다-QQ- 플롯, 경험적 cdfs 등. (그들은 정보를 추출하는 방법을 배우기가 조금 더 어렵지만 그런 종류의 문제에 거의 영향을받지 않습니다.)

즉, 큰 표본 크기를 고려하고 표본을 가정하면 일부 모집단의 무작위 표본이므로 그러한 표본이 추출 된 분포가 오른쪽으로 치우친다는 결론을 내리는 것이 매우 안전합니다. bimodality의 인상은 상대적으로 약하지만 (적어도 더 작은 샘플에서는 실제로 bimodal이 아닌 모집단에서 발생하는 것을 합리적으로 볼 수 있다는 의미에서) 여전히 디스플레이에서 bimodality의 모양을 언급합니다.

2의 문제를 완전히 무시하고있는 지금, 우리는 관찰되고 보는 것에 가까운 단지 단일 모드 분포를 고려하여 단일 모드 집단에서 히스토그램이 발생할 수 있는지 여부를 알 수 있습니다. 샘플에서 관찰 한 것만 큼 단일 모드에서 멀리 떨어진 것을 생성 할 수 있다면.

상황을 단순화하기 위해 약 67에서 133 * 사이의 지역을 고려하십시오 (여기서 빈 수에 대한 추정치를 포함했습니다. 해당 지역의 관련 빈) :

빈 카운트가 포함 된 히스토그램 추출

이 중 어느 쪽이든,이 세그먼트 전후의 여러 빈에서 밀도가 상당히 감소하고 있습니다. 문제는 우리가 합리적으로 다시 갈 수 있다는 것입니다. d이 부분이 증가하지 않는 분포 부분의 무작위 표본으로?

* 여기서는 특정 부분을 선택하고 특히이 부분에 집중할 때의 영향이 무시되고 있지만 이것은 그렇지 않습니다. 정말 무시해야 할 것 (예를 들어, 우리가 포함시킨 마지막 빈 뒤에 다음 빈을 정말로 포함시켜야 하는가?). 그러나 나는 증가하지 않는 밀도가 데이터와 호환되는지 (빈 배치 조건에 따라)에 대한 야구장 아이디어를 제공 할 간단한 분석의 감각을 제공하기 위해 어쨌든 앞서 청구 할 것입니다. 이와 같이 “보기에 이상한 부분을 골라내는 것”은 일반적으로 “중요한”것을 찾을 가능성을 증가시킬 것입니다. 그래서 우리가 아무것도 찾지 못한다면, 그것을 할 수 없다고 말할 이유가 거의 없습니다. ” t는 단봉 적입니다.

먼저 이것이 증가하지 않는 분포의 샘플과 일치하는지 확인하기 위해 우리는 증가 측정이 필요합니다. 저는 단순히 bin-counts ($ b_i-b_ {i)의 차이를 추가 할 것을 제안합니다. -1} $) 증가 할 때마다 (그렇지 않으면 0으로 계산), 즉 $ U = \ sum_i (b_i-b_ {i-1}) _ + $. 따라서 bin-counts 369, 373, 413, 375, 382 , 375 업 점프의 총합은 U = 4 + 40 + 0 + 7 + 0 = 51입니다.

디스플레이를 생성하는 “가장 좋은”비 증가 사례는 유니폼입니다.

p>

이 지역의 총 개수는 2287이고 빈이 6 개입니다.

6 개의 유사 카테고리에서 크기가 2287 인 표본이 총계를 생성 할 수있는 확률은 얼마입니까? 점프, 최소 51 달러 중 $ U $? 그것은 시뮬레이션으로 쉽게 찾을 수있는 것입니다.

R에서 시도해보기 :

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349 

따라서 밀도의 균일 한 섹션에서 그 증가량을 쉽게 볼 수 있음을 나타냅니다. 그 크기의 표본에서-균일 한 경우 최소한 그 정도의 시간이 증가 할 것입니다.

물론 다른 측정 값을 선택했을 수도 있지만 그 정도면 충분합니다. 해당 섹션의 균일 성과 일치하므로 히스토그램이 전체 단일 모드 분포의 무작위 샘플과 일치하지 않습니다.

[편집 : 완성도를 위해 나중에 돌아가서 다른 합리적인 몇 가지를 살펴 보았습니다. 통계를 테스트하여 큰 차이가 있는지 확인했지만 “아무것도 표시하지 않았습니다.]

물론 단봉이라고 선언하기에는 충분하지 않습니다. 우리는 그것을 말할 수 없습니다. “단일 모드가 아닙니다.

그래서 나는 그것을 오른쪽으로 치우친 것처럼 설명하고 싶습니다. 인구가 한 가지 이상의 모드를 가지고 있는지에 대해 이야기해야한다면, 100에 가까운 두 번째 모드가있을 가능성이 있다고 말할 정도입니다. 그러나 이것으로 결론을 내리는 것은 어렵습니다 디스플레이.

댓글

  • 와-멋지네요. 이로 인해 상황이 훨씬 더 명확 해집니다. 감사합니다!
  • " ' 물론 X로 선언하기에 충분하지 않습니다. 우리는 ' Y가 아니라 ' " -통계 요약

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다