Welchen Abstand soll man benutzen? zB Manhattan, Euklidisch, Bray-Curtis usw.

Ich bin kein Community-Ökologe, aber heutzutage arbeite ich an Community-Ökologiedaten.

Was ich, abgesehen von der Mathematik dieser Entfernungen, nicht verstehen konnte, sind die Kriterien für jede zu verwendende Entfernung und in welchen Situationen kann sie angewendet werden. Zum Beispiel, was mit Zähldaten zu verwenden ist? Wie konvertiere ich die Steigung? Winkel zwischen zwei Orten in eine Entfernung? Oder die Temperatur oder der Niederschlag an zwei Orten? Was sind die Annahmen für jede Entfernung und wann ist dies sinnvoll?

Kommentare

  • Der zuverlässige Weg, Entfernungsmetriken, ihre Annahmen, Bedeutung und Anwendbarkeit zu verstehen, besteht darin, über ihre Formeln zu meditieren. Sie wissen, die vergleichende Anatomie hat es ermöglicht, vorherzusagen, wie verschiedene Tiere leben und sich verhalten. Lesen Sie auch Bücher / Artikel über Distanzmetriken .
  • Pedantische Anmerkung: Bray-Curtis ist keine Distanz, sondern eine Unähnlichkeit.

Antwort

Leider gibt es in den meisten Situationen keine eindeutige Antwort auf Ihre Frage. Das heißt, für jede gegebene Anwendung gibt es sicherlich viele Entfernungsmetriken, die ähnliche und genaue Antworten liefern. Angesichts der Tatsache, dass Dutzende und wahrscheinlich Hunderte gültiger Entfernungsmetriken aktiv verwendet werden, ist die Vorstellung, dass Sie die „richtige“ Entfernung finden können, keine produktive Möglichkeit, über das Problem der Auswahl einer geeigneten Entfernungsmetrik nachzudenken.

Ich würde mich stattdessen darauf konzentrieren, nicht die falsche Entfernungsmetrik auszuwählen. Möchten Sie, dass Ihre Distanz die „absolute Größe“ widerspiegelt (Sie möchten beispielsweise die Distanz verwenden, um Aktien mit ähnlichen Mittelwerten zu identifizieren) oder die Gesamtform der Reaktion widerspiegeln (z. B. Aktienkurse, die im Laufe der Zeit ähnlich schwanken)? kann aber ganz andere Rohwerte haben)? Das erstere Szenario würde Entfernungen wie Manhattan und Euklidisch anzeigen, während das letztere beispielsweise die Korrelationsentfernung anzeigen würde.

Wenn Sie die Kovarianzstruktur Ihrer Daten kennen, ist die Mahalanobis-Entfernung wahrscheinlich besser geeignet. Für rein kategoriale Daten werden viele Entfernungen vorgeschlagen, z. B. übereinstimmende Entfernungen. Für gemischte kategoriale und kontinuierliche Gower ist die Distanz beliebt (obwohl meiner Meinung nach theoretisch etwas unbefriedigend).

Schließlich wird Ihre Analyse meiner Meinung nach gestärkt, wenn Sie nachweisen, dass Ihre Ergebnisse und Schlussfolgerungen robust sind die Wahl der Entfernungsmetrik (natürlich innerhalb der Teilmenge der geeigneten Entfernungen). Wenn sich Ihre Analyse mit geringfügigen Änderungen der verwendeten Entfernungsmetrik drastisch ändert, sollten weitere Untersuchungen durchgeführt werden, um den Grund für die Inkonsistenz zu ermitteln.

Kommentare

  • Was meinen Sie mit correlation distance? 1- r ?
  • @ttnphns yep, $ 1-r $ ist am häufigsten. Es ist ‚ erwähnenswert, dass für eine gegebene Ähnlichkeitsmetrik $ \ rho \ in [-1,1] $ dort vorhanden ist sind mindestens drei Formeln für die Umwandlung in eine Unähnlichkeit: (1) Bhattacharyya ‚ s Methode $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‚ s Methode $ 1- \ rho $ und (3) Matusita ‚ s Methode $ \ sqrt {2-2 \ rho} $. Dies ist ein weiterer Bereich, in dem in der Praxis $ I ‚ nicht der Meinung ist, dass die Auswahl normalerweise von großer Bedeutung ist, und wenn dies der Fall wäre, wäre ich besorgt über die Robustheit meiner Ergebnisse.
  • Zitat für meinen letzten Kommentar: Krzanowski (1983). Biometrika, 70 (1), 235 & ndash; 243. Siehe Seite 236.
  • OK, danke. Überprüfen Sie auch diese Antwort bitte. Es weist auf die Tatsache hin, dass r genau mit dem euklidischen Abstand zusammenhängt, der für die standardisierten Daten (Profile, die verglichen werden) erhalten wurde, die reflect overall shape of the response in Ihren Worten.
  • Guter Beitrag. Die beiden Metriken hängen tatsächlich zusammen, wie Sie hervorheben. Um Ihre Punkte in Bezug auf die aktuelle Diskussion zu kontextualisieren, besteht der Hauptunterschied darin, dass in euklidischen Abstandsvariablen (normalerweise) nicht zentriert sind, sondern die Korrelationsformel Variablen und Skalen um ihre Standardabweichung zentriert. Daher ist die Korrelation für lineare Transformationen unveränderlich, während der euklidische Abstand nicht unbedingt ist.

Antwort

Auswahl der richtigen Entfernung ist keine elementare Aufgabe. Wenn wir eine Clusteranalyse für einen Datensatz durchführen möchten, können unterschiedliche Ergebnisse mit unterschiedlichen Entfernungen angezeigt werden. Daher ist es sehr wichtig, vorsichtig zu sein, in welcher Entfernung Sie wählen müssen, da wir ein falsch gutes Artefakt erstellen können, das die Variabilität gut erfasst eigentlich ohne Sinn in unserem Problem.

Der euklidische Abstand ist angemessen, wenn ich kontinuierliche numerische Variablen und habe Ich möchte absolute Entfernungen widerspiegeln.Dieser Abstand berücksichtigt jede Variable und entfernt keine Redundanzen. Wenn ich also drei Variablen hätte, die dasselbe erklären (korreliert sind), würde ich diesen Effekt mit drei gewichten. Darüber hinaus ist diese Entfernung nicht skalierungsinvariant, so dass ich im Allgemeinen vorher skalieren muss, um die Entfernung zu verwenden.
Beispielökologie: Wir haben verschiedene Beobachtungen von vielen Orten, von denen die Experten Proben von einigen mikrobiologischen, physikalischen entnommen haben und chemische Faktoren. Wir wollen Muster in Ökosystemen finden. Diese Faktoren haben eine hohe Korrelation, aber wir wissen, dass jeder relevant ist, daher möchten wir diese Redundanzen nicht beseitigen. Wir verwenden den euklidischen Abstand mit skalierten Daten, um den Effekt von Einheiten zu vermeiden.

Der Mahalanobis distance ist angemessen, wenn ich kontinuierliche numerische Variablen habe und absolute Entfernungen widerspiegeln möchte, aber wir möchten Redundanzen entfernen. Wenn wir wiederholte Variablen haben, verschwindet ihre wiederholte Wirkung.

Die Familie Hellinger , Artenprofil und Akkordabstand sind geeignet, wenn wir Unterschiede zwischen Variablen hervorheben möchten , wenn wir Profile unterscheiden wollen. Diese Abstände werden nach Gesamtmengen jeder Beobachtung gewichtet, so dass die Abstände klein sind, wenn sie variabel sind, wenn sie variabel sind, sind die Individuen ähnlicher, obwohl sie in absoluten Größen sehr unterschiedlich waren. Achtung! Diese Abstände spiegeln den Unterschied zwischen den Profilen sehr gut wider, haben jedoch den Größeneffekt verloren. Sie können sehr nützlich sein, wenn wir unterschiedliche Stichprobengrößen haben.
Beispielökologie: Wir möchten die Fauna vieler Länder untersuchen und haben eine Datenmatrix eines Inventars der Gastropode (Stichprobenorte in Reihen und Artennamen) in Spalten). Die Matrix zeichnet sich durch viele Nullen und unterschiedliche Größen aus, da einige Lokalitäten einige Arten und andere andere Arten aufweisen. Wir könnten die Hellinger-Entfernung verwenden.

Bray-Curtis ist ziemlich ähnlich, aber es ist besser geeignet, wenn wir Profile unterscheiden und auch relative Größen berücksichtigen möchten.

Kommentare

  • Vielen Dank, dass Sie die Anwendungsfälle und Beispiele differenziert haben. Fand dies sehr hilfreich bei der Anwendung auf ein Aero-Klassifizierungsmodell.

Antwort

In Bezug auf die Entfernung nach Manhattan: Kaufman, Leonard und Peter J. Rousseeuw. „Gruppen in Daten finden: Eine Einführung in die Clusteranalyse.“ (2005).

Die Verwendung der Manhattan-Distanz wird in Situationen empfohlen, in denen beispielsweise eine Differenz von 1 in der ersten Variablen, und von 3 in der zweiten Variablen ist die gleiche wie eine Differenz von 2 in der ersten Variablen und von 2 in der zweiten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.