Jakiej odległości użyć? np. manhattan, euclidean, Bray-Curtis itp.

Nie jestem ekologiem społeczności, ale obecnie pracuję nad danymi dotyczącymi ekologii społeczności.

To, czego nie mogłem zrozumieć, poza matematyką tych odległości, to kryteria dla każdej odległości, które należy zastosować i w jakich sytuacjach można ją zastosować. Na przykład, czego używać z danymi licznikowymi? Jak przeliczyć nachylenie kąt między dwoma lokalizacjami na odległość? Albo temperatura lub opady w dwóch miejscach? Jakie są założenia dla każdej odległości i kiedy ma to sens?

Komentarze

  • Wiarygodnym sposobem zrozumienia metryk odległości, ich założeń, znaczenia i zastosowania jest medytacja nad ich formułami. Wiesz, anatomia porównawcza pozwoliła przewidzieć, jak żyją i zachowują się różne zwierzęta. Przeczytaj także książki / artykuły o metrykach odległości .
  • Uwaga pedantyczna: Bray – Curtis to nie odległość, ale odmienność.

Odpowiedź

Niestety w większości sytuacji nie ma jednoznacznej odpowiedzi na Twoje pytanie. Oznacza to, że dla każdej aplikacji z pewnością istnieje wiele wskaźników odległości, które dadzą podobne i dokładne odpowiedzi. Biorąc pod uwagę, że istnieją dziesiątki, a prawdopodobnie setki, aktywnych metryk odległości, założenie, że można znaleźć „właściwą” odległość, nie jest produktywnym sposobem myślenia o problemie wyboru odpowiedniej miary odległości.

Zamiast tego skupiłbym się na nie wybraniu złej metryki odległości. Czy chcesz, aby odległość odzwierciedlała „wielkość bezwzględną” (na przykład interesuje Cię wykorzystanie odległości do identyfikacji akcji o podobnych średnich wartościach), czy też ogólny kształt odpowiedzi (np. Ceny akcji, które zmieniają się w podobny sposób w czasie, ale może mieć zupełnie inne wartości surowe)? Pierwszy scenariusz wskazywałby odległości takie jak Manhattan i Euklidesa, podczas gdy drugi wskazywałby na przykład odległość korelacji.

Jeśli znasz strukturę kowariancji danych, wtedy odległość Mahalanobisa jest prawdopodobnie bardziej odpowiednia. W przypadku danych czysto kategorialnych istnieje wiele proponowanych odległości, na przykład dopasowanie odległości. W przypadku mieszanych kategorycznych i ciągłych dystans Gowera jest popularny (choć moim zdaniem nieco niezadowalający).

Wreszcie, moim zdaniem, twoja analiza zostanie wzmocniona, jeśli wykażesz, że twoje wyniki i wnioski są odporne na wybór metryki odległości (oczywiście w ramach podzbioru odpowiednich odległości). Jeśli twoja analiza zmieni się drastycznie wraz z subtelnymi zmianami używanej metryki odległości, należy przeprowadzić dalsze badania w celu zidentyfikowania przyczyny niespójności.

Komentarze

  • Co rozumiesz przez correlation distance? 1- r ?
  • @ttnphns tak, najczęściej występuje $ 1-r $. Warto zauważyć, że ' dla danej metryki podobieństwa $ \ rho \ in [-1,1] $ tam są co najmniej trzy formuły konwersji na niepodobieństwo: (1) Bhattacharyya ' s metoda $ cos ^ {- 1} (\ rho) $, (2) Kołmogorow ' s metoda $ 1- \ rho $ i (3) Matusita ' s metoda $ \ sqrt {2-2 \ rho} $. To kolejny obszar, w którym $ w praktyce $ nie ' nie sądzę, że wybór ma zwykle duże znaczenie, a gdyby tak było, martwiłbym się o solidność moich wyników.
  • Cytat za mój ostatni komentarz: Krzanowski (1983). Biometrika, 70 (1), 235-243. Patrz strona 236.
  • OK, dziękuję. Sprawdź również tę odpowiedź . Wskazuje to na fakt, że r jest dokładnie związane z odległością euklidesową uzyskaną na podstawie ustandaryzowanych danych (porównywanych profili), co reflect overall shape of the response według twoich słów.
  • Dobry post. Jak zauważyłeś, te dwa wskaźniki są rzeczywiście powiązane. Aby nadać kontekst aktualnej dyskusji, kluczową różnicą jest to, że zmienne odległości euklidesowej nie są (zwykle) wyśrodkowane, ale wzór korelacji wyśrodkowuje zmienne i skale według ich odchylenia standardowego. Zatem korelacja jest niezmienna dla przekształceń liniowych, podczas gdy odległość euklidesowa niekoniecznie.

Odpowiedź

Wybór właściwego dystans nie jest podstawowym zadaniem. Kiedy chcemy przeprowadzić analizę skupień na zbiorze danych, mogą pojawić się różne wyniki przy różnych odległościach, więc bardzo ważne jest, aby uważać, jaką odległość wybrać, ponieważ możemy stworzyć fałszywie dobry artefakt, który dobrze uchwyci zmienność, ale właściwie bez sensu w naszym problemie.

Euklidesowa odległość jest odpowiednia, gdy mam ciągłe zmienne numeryczne i Chcę odzwierciedlać odległości bezwzględne.Odległość ta uwzględnia każdą zmienną i nie usuwa nadmiarowości, więc gdybym miał trzy zmienne, które wyjaśniają to samo (są skorelowane), zważałbym ten efekt trzema. Co więcej, ta odległość nie jest niezmiennikiem skali, więc generalnie muszę przeskalować wcześniej, aby użyć odległości.
Przykład ekologii: Mamy różne obserwacje z wielu miejscowości, z których eksperci pobrali próbki niektórych mikrobiologicznych, fizycznych i czynniki chemiczne. Chcemy znaleźć wzorce w ekosystemach. Te czynniki mają wysoką korelację, ale wiemy, że wszyscy są istotni, więc nie chcemy usuwać tych nadmiarowości. Używamy odległości euklidesowej ze skalowanymi danymi, aby uniknąć wpływu jednostek.

Mahalanobis distance jest odpowiednie, gdy mam ciągłe zmienne numeryczne i chcę odzwierciedlić odległości bezwzględne, ale chcemy usunąć nadmiarowości. Jeśli mamy powtarzające się zmienne, ich powtarzający się efekt zniknie.

Rodzina Hellinger , Profil gatunkowy i Odległość cięciwy są odpowiednie, gdy chcemy położyć nacisk na różnice między zmiennymi , kiedy chcemy rozróżnić profile. Odległości te ważą całkowitą wielkością każdej obserwacji, w taki sposób, że odległości są małe, gdy zmienne przez zmienną, osobniki są bardziej podobne, chociaż w wielkościach bezwzględnych były bardzo różne. Uważaj! Odległości te bardzo dobrze odzwierciedlają różnicę między profilami, ale straciły wpływ na wielkość. Mogą być bardzo przydatne, gdy mamy różne rozmiary próbek.
Przykład ekologii: Chcemy zbadać faunę wielu krajów i mamy macierz danych inwentarza ślimaków (lokalizacje próbkowania w rzędach i nazwy w kolumnach). Macierz charakteryzuje się wieloma zerami i różnymi wielkościami, ponieważ w niektórych miejscowościach występują pewne gatunki, a w innych inne. Moglibyśmy użyć odległości Hellingera.

Bray-Curtis jest dość podobny, ale bardziej odpowiednie, gdy chcemy rozróżnić profile, a także wziąć pod uwagę względne wielkości.

Komentarze

  • Dziękujemy za zróżnicowanie przypadków użycia i przykładów. Okazało się, że jest to bardzo pomocne w zastosowaniu do modelu klasyfikacji aerodynamicznej.

Odpowiedź

Odnośnie odległości Manhattanu: Kaufman, Leonard i Peter J. Rousseeuw. „Znajdowanie grup w danych: wprowadzenie do analizy skupień”. (2005).

Stosowanie odległości Manhattan jest zalecane w sytuacjach, gdy np. Różnica 1 w pierwszej zmiennej, a 3 w drugiej zmiennej to różnica 2 w pierwszej zmiennej i 2 w drugiej.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *