몇 주 전에 통계를 배우기 시작했습니다. 제 질문은 평균, 중앙값 및 모드가 데이터의 중심 경향과 평균, 중앙값 및 모드가 완전히 다른 스토리를 전달하는 경우 데이터의 중심 경향을 고려해야하는 상황이 거의 없기 때문에 이러한 측정 중 하나만 사용해서는 안된다고 제안했습니다. 데이터에 대한
예
mean = 43.26 median = 14 and mode = 9
제 질문은 이러한 측정 값에서 무엇을 해석해야 하는가에 대한 중앙 경향
댓글
- 조언을 인용하고 " 매우 이상하게 보입니다.
어떤 " 사용해야합니다. 조언의 어떤 부분이 " don ' 그중 하나만 사용하면 " 혼란 스럽습니까?. 만약 그렇다면
혼란스럽지 않습니다. 그렇다면 " 하나만 " 선택하는 이유는 무엇입니까?
답변
상황에 따라 답변이 달라집니다. 응용 통계학자는 근본적인 질문에 가장 적합한 측정 값을 찾아야합니다.
다음 문장을 고려하세요.
대부분의 사람들은 평균 이상입니다. 다리 수
대부분의 사람들은 다리가 2 개이고 일부는 다리가 하나만 있거나 전혀 없습니다. 따라서 평균은 아마 1.9 일 것입니다 …
거리에있는 누군가가 “사람들은 다리가 몇 개입니까?”라고 물으면 일반적으로 모드 인 “two legs”라는 대답을 기대합니다. 모드는 종종 “정상적인 것”입니다. 그러나 멀리 떨어진 국가를 위해하지 의지의 재고를 계획해야하는 위치에 있었다면 평균 는 인구 크기입니다. 작은 표본에서 평균을 평가하고 싶지만 특이 치를 두려워하는 대부분의 경우 중앙값 이 더 나은 평가자입니다.
따라서 최상의 측정 값에 대한 질문은 보편적 인 수학적 질문이 아니며 반드시 측정하는 것에 의존하는 것도 아닙니다.하지만 해결하려는 실제 문제에 따라 다릅니다.
답변
제 생각에 답은 분포 형태에 따라 달라집니다. 예를 들어, 종 모양의 밀도가있는 경우 평균을 유익한 추정기로 사용할 수 있습니다. 약간의 특이 치가 있거나 치우친 분포가 있거나 분포에 잘 정의 된 평균이없는 경우 중앙값을 사용할 수 있습니다. 다중 모달 분포가있는 경우 모드를 사용할 수 있습니다.
이러한 모든 추정치는 본질적으로 다르며 기본 랜덤 변수에 대한 다른 정보를 제공합니다.
논의 할 가치가있는 또 다른 사항 ( 이 추정치가 의미하는 바의 근본적인 차이를 제외하고) 추정의 효율성과 고 장점입니다. 평균은 가장 효율적인 추정기입니다 (귀하의 추정치는 보유한 크기의 표본을 사용하여 실제 값에 가깝습니다). 중앙값은 훨씬 더 강력하지만 (거의 50 % 고장 지점이 있음) 훨씬 덜 효과적입니다. Lehman-Hodges 추정치는 그 사이 어딘가에 있습니다. Kernel Density Estimation을 통해 얻을 수있는 모드는 전혀 효율적이지 않으며 “이상 값”이 50 %를 초과하는 경우에만 사용하는 것이 좋습니다.이 경우에도 커널에 대해 매우주의해야합니다. 예를 들어, R의 기본 커널은 역사적인 이유로 거기에 보관되며 사용해서는 안됩니다.
이것은 제 의견이며 잘못되었을 수 있습니다.
이미지 출처 : https://www.tutor2u.net/geography/reference/mean-median-and-mode