어느 거리를 사용할까요? 예 : 맨해튼, 유클리드, 브레이커 티스 등

저는 지역 사회 생태학자는 아니지만 요즘에는 지역 사회 생태 데이터를 작업하고 있습니다.

이 거리의 수학을 제외하고는 이해할 수 없었던 것은 각 거리에 대한 기준과 적용 가능한 상황입니다. 예를 들어 카운트 데이터로 무엇을 사용할 것인가? 기울기를 변환하는 방법 두 위치 사이의 각도가 거리에 있습니까? 아니면 두 위치의 기온이나 강우량이 있습니까? 각 거리에 대한 가정은 무엇이며 언제 이치에 맞습니까?

댓글

  • 거리 측정 항목, 가정, 의미 및 적용 가능성을 이해하는 신뢰할 수있는 방법은 공식을 묵상하는 것입니다. 비교 해부학을 통해 동물이 어떻게 살고 행동하는지 예측할 수 있습니다. 또한 거리 측정 항목에 대한 책 / 기사도 읽어보세요. .
  • Pedantic note : Bray–Curtis는 거리가 아니라 유사점입니다.

답변

안타깝게도 대부분의 상황에서 귀하의 질문에 대한 명확한 답변이 없습니다. 즉, 주어진 응용 프로그램에 대해 유사하고 정확한 답변을 얻을 수있는 많은 거리 메트릭이 있습니다. 수십, 아마도 수백 개의 유효한 거리 측정 항목이 활발하게 사용되고 있다는 점을 고려할 때 적절한거리를 찾을 수 있다는 개념은 적절한 거리 측정 항목을 선택하는 문제에 대해 생각하는 생산적인 방법이 아닙니다.

대신 거리 측정 항목을 잘못된 선택하지 않는 데 집중하겠습니다. 거리가 “절대 규모”를 반영하기를 원합니까 (예를 들어, 비슷한 평균값을 가진 주식을 식별하기 위해 거리를 사용하는 데 관심이 있음) 또는 반응의 전체적인 형태를 반영하기를 원합니까 (예 : 시간에 따라 유사하게 변동하는 주가, 그러나 완전히 다른 원시 값을 가질 수 있습니다)? 전자 시나리오는 맨해튼과 유클리드와 같은 거리를 나타내고 후자는 상관 거리를 나타냅니다.

데이터의 공분산 구조를 알고 있다면 Mahalanobis 거리가 더 적절할 것입니다. 순전히 범주 형 데이터의 경우 제안 된 거리가 많이 있습니다 (예 : 일치 거리). 혼합 된 범주 형 및 연속 형 Gower의 거리가 인기가 있습니다 (이론적으로는 다소 불만족 스럽지만).

마지막으로 결과와 결론이 확실하다는 것을 입증하면 분석이 강화 될 것입니다. 거리 측정법의 선택 (물론 적절한 거리의 하위 집합 내에서). 사용 된 거리 측정법의 미묘한 변화로 분석이 급격하게 변경되는 경우 불일치의 원인을 식별하기 위해 추가 연구를 수행해야합니다.

댓글

  • correlation distance의 의미는 무엇입니까? 1- r ?
  • @ttnphns 예, $ 1-r $가 가장 일반적입니다. ' 주어진 유사성 측정 항목에 대해 $ \ rho \ in [-1,1] $에 주목할 가치가 있습니다. 유사점으로 변환하기위한 세 가지 이상의 공식 : (1) Bhattacharyya '의 방법 $ cos ^ {-1} (\ rho) $, (2) Kolmogorov '의 방법 $ 1- \ rho $ 및 (3) Matusita '의 방법 $ \ sqrt {2-2 \ rho} $. 이것은 $ practice $에서 제가 ' 선택이 일반적으로 그다지 중요하지 않다고 생각하는 또 다른 영역이며, 만약 그렇다면 제 결과의 견고성에 대해 걱정할 것입니다.
  • 마지막 댓글 인용 : Krzanowski (1983). Biometrika, 70 (1), 235–243. 236 페이지를 참조하십시오.
  • 네, 감사합니다. 이 답변 도 확인하세요. r 이 표준화 된 데이터 (비교중인 프로필)에서 얻은 유클리드 거리와 정확히 관련이 있다는 사실을 알 수 있습니다. 이는 reflect overall shape of the response입니다.

li>

  • 좋은 소식입니다. 두 가지 측정 항목은 실제로 관련이 있습니다. 현재 토론에 대한 포인트를 맥락화하기 위해 주요 차이점은 유클리드 거리 변수가 (일반적으로) 중심에 있지 않지만 상관 공식은 표준 편차에 따라 변수와 척도를 중심에 배치한다는 것입니다. 따라서 상관 관계는 선형 변환에 변하지 않지만 유클리드 거리는 반드시 그런 것은 아닙니다.
  • 답변

    오른쪽 선택 거리는 기본적인 작업이 아닙니다. 데이터 세트에 대한 클러스터 분석을 수행하려는 경우 다른 거리를 사용하여 다른 결과가 나타날 수 있습니다. 따라서 가변성을 잘 포착하는 잘못된 인공물을 만들 수 있기 때문에 어떤 거리를 선택해야하는지주의하는 것이 매우 중요합니다. 실제로 우리 문제에는 의미가 없습니다.

    Euclidean 거리는 연속적인 수치 변수가 있고 절대 거리를 반영하고 싶습니다.이 거리는 모든 변수를 고려하고 중복성을 제거하지 않습니다. 따라서 동일한 것을 설명하는 (상관 된) 변수가 3 개 있으면이 효과에 3 가중치를 적용합니다. 또한이 거리는 규모가 불변하지 않으므로 일반적으로 거리를 사용하기 위해 이전에 규모를 조정해야합니다.
    예시 생태학 : 우리는 여러 지역에서 관찰 한 결과가 다르며 전문가가 일부 미생물 학적, 물리적 샘플을 채취했습니다. 및 화학적 요인. 우리는 생태계에서 패턴을 찾고 싶습니다. 이러한 요인은 높은 상관 관계를 가지고 있지만 모든 사람이 관련성이 있다는 것을 알고 있으므로 이러한 중복을 제거하고 싶지 않습니다. 단위 효과를 피하기 위해 스케일링 된 데이터에 유클리드 거리를 사용합니다.

    Mahalanobis distance는 연속적인 수치 변수가 있고 절대 거리를 반영하고 싶지만 중복을 제거하고 싶을 때 적합합니다. 반복 변수가 있으면 반복 효과가 사라집니다.

    가족 Hellinger , 종 프로필 코드 거리 는 변수 간의 차이를 강조하고자 할 때 적합합니다. , 프로필을 차별화하려는 경우. 이러한 거리는 각 관측치의 총량에 따라 가중치를 부여합니다. 절대 크기는 매우 다르지만 변수에 따라 가변적 일 때 거리가 더 비슷해 지도록하는 방식입니다. 조심해! 이러한 거리는 프로파일 간의 차이를 매우 잘 반영하지만 크기 효과를 잃었습니다. 샘플 크기가 다를 때 매우 유용 할 수 있습니다.
    생태학 예 : 많은 땅의 동물 군을 연구하고 복족류 목록의 데이터 매트릭스를 가지고 있습니다 (행 및 종 이름의 샘플링 위치). 열). 일부 지역에는 일부 종이 있고 다른 지역에는 다른 종이 있기 때문에 행렬은 많은 0과 다른 크기를 갖는 것이 특징입니다. Hellinger 거리를 사용할 수 있습니다.

    Bray-Curtis 는 매우 유사하지만 프로필을 차별화하고 상대적 크기도 고려할 때 더 적합합니다.

    댓글

    • 사용 사례와 예제를 차별화 해 주셔서 감사합니다. 이것은 항공기 분류 모델에 적용하는 데 매우 도움이된다는 것을 발견했습니다.

    답변

    맨해튼 거리 관련 : Kaufman, Leonard 및 Peter J. Rousseeuw. “데이터에서 그룹 찾기 : 클러스터 분석 소개.” (2005).

    예를 들어 첫 번째 변수에서 차이가 1 인 상황에서 맨해튼 거리를 사용하는 것이 좋습니다. 두 번째 변수의 3은 첫 번째 변수의 2와 두 번째 변수의 차이와 같습니다.

    답글 남기기

    이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다