바이 모달 분포에서 가져온 값에 대한 요약 작성

제품 카테고리에 값을 할당하는 통계가 있습니다. 이 통계는 강력한 이중 모드를 보여줍니다 (그래프 참조). 분석을 위해 각 제품에 해당 통계의 값을 할당하려고합니다 (편집 : 제품이 관측치 인 회귀 분석 수행). 제품이 하나의 카테고리에만있는 경우 이는 간단합니다. 그러나 제품에 하나 이상의 카테고리가 지정되면 어려워집니다. 통계는 바이 모달이므로 제품의 모든 범주에 대한 값의 평균을 취하는 것은 의미가 없습니다. 이런 종류의 요약 통계를 얻을 수있는 방법이 있는지 궁금합니다.

밀도 플롯

제 질문에는 두 가지 관련 부분이 있습니다. :

a) 빠른 검색을 통해 다양성 을 평가하는 몇 가지 방법이 있다는 아이디어를 얻었습니다 (Ashman “s D, Bimodality index , bimodality coefficient),하지만 bimodal 분포에서 도출 된 여러 값을 요약 할 수있는 간단한 방법은 없습니다.하지만 내가 놓친 것이 있는지 궁금합니다. 당면한 문제에 대해서는 b에 설명 된 접근 방식을 채택 할 것이라고 생각합니다. 미래에는 그러한 유형의 데이터를 요약하기 위해 그러한 경우에 무엇을 할 수 있는지 알게되어 기쁩니다?

b) 현재 채택하고있는 접근 방식은 통계를 세 가지 범주로 바꾸는 것입니다. 1 : 0에 가까운 값에 대해 하나, 약 10에 가까운 값에 대해 하나, 마지막으로 5 근처에있는 값에 대해 하나. 그런 다음 각 제품에 대해 해당 범주가 각 범위에 나열된 횟수를 계산합니다. s는 이론적으로 나에게 의미가 있지만 내가 놓친 통계적 함정이 있는지 궁금합니다. (이 접근 방식은 여기 에서 채택 된 방식과 (매우) 느슨하게 연결되어 있으며, 두 모집단으로 분포를 분할하는 것을 고려합니다).

댓글

  • 목표가 무엇인지에 따라 다르지만 두 모드에 해당하는 두 분포를 찾기 위해 혼합 모델을 사용하는 것이 좋습니다. ' " 해당 통계에 대한 값을 각 제품에 할당하려는 " ?
  • 데이터 그래프를 표시하는 것을 잊은 것 같습니다.
  • @AdamO 어떤 유형의 데이터 그래프를 작성 하시겠습니까? 보고 싶어? 산점도? 그렇지 않은 경우 도움이 될만한 정보를 알려 주시면 추가하겠습니다.
  • @jerad " 해당 통계 값을 각 제품에 할당
  • @jerad div id = “a4d1f07770″>

(게시물의 텍스트도 수정했습니다)는 제품이 관측 값 인 회귀 모델에서 변수로 사용하고 싶습니다. 이것이 여러 카테고리가있는 제품에 대한 요약 값을 찾고 싶은 이유입니다.

  • 죄송합니다. 밀도 플롯을 볼 때 '로드되지 않았습니다. 내 이전 브라우저에서.
  • 답변

    통계는 바이 모달이므로 제품의 모든 카테고리에 대한 값의 평균을 취하는 것은 의미가 없습니다.

    이것이 반드시 사실이라고 생각하지 않습니다. 예를 들어 , 유방암 위험은 유전 적 표지에 따라 높은 위험과 낮은 위험으로 매우 계층화됩니다. 유전자 코드가 무엇인지 모를 때에도 평균을보고하는 것이 좋습니다.

    변수 잘라 내기 만들기 임의의 컷오프 선택과 관련된 문제가 있습니다. 이로 인해 혼합 정규 분포에서 오는 모드 추정에 약간의 편향이 발생합니다. 대안적인 접근 방식은 혼합 분포에서 “높음”대 “낮음”그룹 할당을 동시에 추정하고 평균에 대한 CI를 계산하고 각 그룹에 대한 표준 오류를 계산할 수있는 EM 알고리즘의 방법입니다. R은 이 문서 에 있습니다.

    댓글

    • 내가 올바르게 이해 한 경우 , EM 알고리즘으로 할 수있는 것은 값이 첫 번째 또는 두 번째 단일 모드 분포에 속하는지 여부와 그 확률을 알 수있는 것입니다.
    • 예 EM은 그룹 멤버십 지표를 반복적으로 추정하여 작동합니다. 각 그룹 간의 평균입니다.

    답글 남기기

    이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다