Quelle distance utiliser? par exemple, manhattan, euclidean, Bray-Curtis, etc.

Je ne suis pas un écologiste communautaire, mais ces jours-ci je travaille sur des données décologie communautaire.

Ce que je ne pourrais pas comprendre, à part les mathématiques de ces distances, ce sont les critères pour chaque distance à utiliser et dans quelles situations il peut être appliqué. Par exemple, que faut-il utiliser avec les données de comptage? Comment convertir la pente angle entre deux endroits dans une distance? Ou la température ou les précipitations à deux endroits? Quelles sont les hypothèses pour chaque distance et quand cela a-t-il un sens?

Commentaires

  • Le moyen fiable de comprendre les mesures de distance, leurs hypothèses, leur signification et leur applicabilité est de méditer sur leurs formules. Vous savez, lanatomie comparée a permis de prédire comment différents animaux vivent et se comportent. Lisez également des livres / articles sur les mesures de distance. .
  • Note pédante: Bray-Curtis n’est pas une distance mais une dissemblance.

Réponse

Malheureusement, dans la plupart des situations, il ny a pas de réponse claire à votre question. Autrement dit, pour une application donnée, il existe sûrement de nombreuses mesures de distance qui donneront des réponses similaires et précises. Étant donné quil existe des dizaines, et probablement des centaines, de mesures de distance valides activement utilisées, lidée que vous pouvez trouver la «bonne» distance nest pas un moyen productif de réfléchir au problème de la sélection dune mesure de distance appropriée.

Je me concentrerais plutôt sur ne pas choisir la mauvaise métrique de distance. Souhaitez-vous que votre distance reflète « lampleur absolue » (par exemple, vous souhaitez utiliser la distance pour identifier des actions qui ont des valeurs moyennes similaires) ou refléter la forme générale de la réponse (par exemple, les cours des actions qui fluctuent de la même manière dans le temps, mais peuvent avoir des valeurs brutes entièrement différentes)? Le premier scénario indiquerait des distances telles que Manhattan et Euclidienne, tandis que le second indiquerait la distance de corrélation, par exemple.

Si vous connaissez la structure de covariance de vos données, la distance de Mahalanobis est probablement plus appropriée. Pour les données purement catégoriques, il existe de nombreuses distances proposées, par exemple, la distance correspondante. Pour la distance de Gower mixte catégorique et continue est populaire, (bien que quelque peu théoriquement insatisfaisant à mon avis).

Enfin, à mon avis, votre analyse sera renforcée si vous démontrez que vos résultats et conclusions sont robustes à le choix de la métrique de distance (dans le sous-ensemble des distances appropriées, bien sûr). Si votre analyse change radicalement avec des changements subtils dans la métrique de distance utilisée, une étude plus approfondie doit être entreprise pour identifier la raison de lincohérence.

Commentaires

  • Quentendez-vous par correlation distance? 1- r ?
  • @ttnphns oui, $ 1-r $ est le plus courant. Il est ‘ de noter que pour une métrique de similarité donnée, $ \ rho \ in [-1,1] $ sont au moins trois formules pour convertir en une dissemblance: (1) Bhattacharyya ‘ s method $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‘ s méthode $ 1- \ rho $, et (3) Matusita ‘ $ \ sqrt {2-2 \ rho} $. Cest un autre domaine où dans $ practice $ je ne ‘ pense pas que le choix compte généralement beaucoup, et si cétait le cas, je serais préoccupé par la robustesse de mes résultats.
  • Citation pour mon dernier commentaire: Krzanowski (1983). Biometrika, 70 (1), 235–243. Voir page 236.
  • OK, merci. Vérifiez également cette réponse . Cela tient au fait que r est exactement lié à la distance euclidienne obtenue sur les données standardisées (profils comparés), qui reflect overall shape of the response dans vos mots.
  • Bon message. Les deux métriques sont en effet liées, comme vous le faites remarquer. Pour contextualiser vos points par rapport à la discussion actuelle, la principale différence est quen euclidien, les variables de distance ne sont pas (généralement) centrées, mais la formule de corrélation centre les variables et les échelles par leur écart type. Ainsi, la corrélation est invariante aux transformations linéaires, alors que la distance euclidienne ne lest pas nécessairement.

Réponse

Choisir le bon la distance nest pas une tâche élémentaire. Lorsque nous voulons faire une analyse de cluster sur un ensemble de données, des résultats différents peuvent apparaître en utilisant différentes distances, il est donc très important de faire attention à la distance à choisir car nous pouvons créer un faux bon artefact qui capture bien la variabilité, mais en fait sans sens dans notre problème.

La distance Euclidienne est appropriée lorsque jai des variables numériques continues et Je veux refléter les distances absolues.Cette distance prend en compte chaque variable et ne supprime pas les redondances, donc si javais trois variables qui expliquent la même chose (sont corrélées), je pondérerais cet effet par trois. De plus, cette distance nest pas invariante à léchelle, donc généralement je dois mettre à léchelle auparavant pour utiliser la distance.
Exemple décologie: Nous avons différentes observations de nombreuses localités, dont les experts ont prélevé des échantillons de certains microbiologiques, physiques et les facteurs chimiques. Nous voulons trouver des modèles dans les écosystèmes. Ces facteurs ont une corrélation élevée, mais nous savons que tout le monde est pertinent, nous ne voulons donc pas supprimer ces redondances. Nous utilisons la distance euclidienne avec des données mises à léchelle pour éviter leffet des unités.

Le Mahalanobis distance est approprié lorsque jai des variables numériques continues et que je veux refléter des distances absolues, mais nous voulons supprimer les redondances. Si nous avons des variables répétées, leur effet répétitif disparaîtra.

La famille Hellinger , Profil despèce et Distance daccords sont appropriés lorsque nous voulons mettre laccent sur les différences entre les variables , quand on veut différencier les profils. Ces distances sont pondérées par les quantités totales de chaque observation, de telle sorte que les distances sont petites lorsque variable par variable les individus sont plus similaires, bien quen grandeur absolue était très différente. Attention! Ces distances reflètent très bien la différence entre les profils, mais ont perdu leffet de magnitude. Ils peuvent être très utiles lorsque nous avons des échantillons de tailles différentes.
Exemple décologie: Nous voulons étudier la faune de nombreuses terres et nous avons une matrice de données dun inventaire des gastéropodes (emplacements déchantillonnage en lignes et noms despèces en colonnes). La matrice est caractérisée par de nombreux zéros et des magnitudes différentes car certaines localités ont certaines espèces et dautres ont dautres espèces. Nous pourrions utiliser la distance Hellinger.

Bray-Curtis est assez similaire, mais cest plus approprié lorsque nous voulons différencier les profils et aussi prendre en compte les grandeurs relatives.

Commentaires

  • Merci de différencier les cas dutilisation et les exemples. Jai trouvé cela très utile dans lapplication à un modèle de classification aérodynamique.

Réponse

Concernant la distance de Manhattan: Kaufman, Leonard et Peter J. Rousseeuw. «Trouver des groupes dans les données: une introduction à lanalyse de cluster». (2005).

Lutilisation de la distance de Manhattan est conseillée dans les situations où par exemple une différence de 1 dans la première variable, et de 3 dans la seconde variable équivaut à une différence de 2 dans la première variable et de 2 dans la seconde.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *