¿Qué distancia usar? por ejemplo, manhattan, euclidiana, Bray-Curtis, etc.

No soy un ecólogo comunitario, pero en estos días estoy trabajando en datos de ecología comunitaria.

Lo que no pude entender, aparte de las matemáticas de estas distancias, es el criterio para cada distancia a usar y en qué situaciones se puede aplicar. Por ejemplo, ¿qué usar con los datos de conteo? Cómo convertir pendiente ángulo entre dos ubicaciones en una distancia? ¿O la temperatura o la lluvia en dos ubicaciones? ¿Cuáles son las suposiciones para cada distancia y cuándo tiene sentido?

Comentarios

  • La forma confiable de comprender las métricas de distancia, sus suposiciones, significado y aplicabilidad es meditar en sus fórmulas. Ya sabes, la anatomía comparativa ha permitido predecir cómo viven y se comportan los diferentes animales. Además, lee libros / artículos sobre métricas de distancia .
  • Nota pedante: Bray – Curtis no es una distancia sino una diferencia.

Responder

Desafortunadamente, en la mayoría de las situaciones no existe una respuesta clara a su pregunta. Es decir, para cualquier aplicación dada, seguramente hay muchas métricas de distancia que producirán respuestas similares y precisas. Teniendo en cuenta que hay docenas, y probablemente cientos, de métricas de distancia válidas que se utilizan activamente, la noción de que puede encontrar la distancia «correcta» no es una forma productiva de pensar en el problema de seleccionar una métrica de distancia adecuada.

En su lugar, me centraría en no elegir la métrica de distancia incorrecta . ¿Quiere que su distancia refleje una «magnitud absoluta» (por ejemplo, le interesa usar la distancia para identificar acciones que tienen valores medios similares) o que refleje la forma general de la respuesta (por ejemplo, precios de las acciones que fluctúan de manera similar a lo largo del tiempo, pero puede tener valores brutos completamente diferentes)? El primer escenario indicaría distancias como Manhattan y Euclidiana, mientras que el segundo indicaría la distancia de correlación, por ejemplo.

Si conoce la estructura de covarianza de sus datos, la distancia de Mahalanobis probablemente sea más apropiada. Para datos puramente categóricos, hay muchas distancias propuestas, por ejemplo, distancia de coincidencia. Para la combinación de categorías categóricas y continuas, la distancia de Gower es popular (aunque, en mi opinión, algo teóricamente insatisfactoria).

Finalmente, en mi opinión, su análisis se fortalecerá si demuestra que sus resultados y conclusiones son robustos a la elección de la métrica de distancia (dentro del subconjunto de distancias apropiadas, por supuesto). Si su análisis cambia drásticamente con cambios sutiles en la métrica de distancia utilizada, se deben realizar más estudios para identificar la razón de la inconsistencia.

Comentarios

  • ¿Qué quieres decir con correlation distance? 1- r ?
  • @ttnphns sí, $ 1-r $ es el más común. ‘ s vale la pena señalar que para una métrica de similitud dada $ \ rho \ en [-1,1] $ hay Hay al menos tres fórmulas para convertir a una diferencia: (1) Método de Bhattacharyya ‘ $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‘ s método $ 1- \ rho $, y (3) Matusita ‘ s método $ \ sqrt {2-2 \ rho} $. Esta es otra área en la que $ practice $ no ‘ creo que la elección por lo general sea muy importante y, si lo fuera, me preocuparía la solidez de mis resultados.
  • Cita para mi último comentario: Krzanowski (1983). Biometrika, 70 (1), 235–243. Consulte la página 236.
  • De acuerdo, gracias. Consulte también esta respuesta , por favor. Apunta al hecho de que r está exactamente relacionado con la distancia euclidiana obtenida en los datos estandarizados (perfiles que se comparan), que reflect overall shape of the response en sus palabras.
  • Buena publicación. De hecho, las dos métricas están relacionadas, como señala. Para contextualizar sus puntos a la discusión actual, la diferencia clave es que en la distancia euclidiana las variables no están (generalmente) centradas, pero la fórmula de correlación centra las variables y escalas por su desviación estándar. Por lo tanto, la correlación es invariante a las transformaciones lineales, mientras que la distancia euclidiana no lo es necesariamente.

Respuesta

Elegir el derecho la distancia no es una tarea elemental. Cuando queremos hacer un análisis de conglomerados en un conjunto de datos, pueden aparecer diferentes resultados usando diferentes distancias, por lo que es muy importante tener cuidado en qué distancia elegir porque podemos hacer un falso buen artefacto que capture bien la variabilidad, pero realmente sin sentido en nuestro problema.

La distancia euclidiana es apropiada cuando tengo variables numéricas continuas y Quiero reflejar distancias absolutas.Esta distancia tiene en cuenta todas las variables y no elimina las redundancias, por lo que si tuviera tres variables que explican lo mismo (están correlacionadas), ponderaría este efecto en tres. Además, esta distancia no es invariante de escala, por lo que generalmente tengo que escalar previamente para usar la distancia.
Ecología de ejemplo: Tenemos diferentes observaciones de muchas localidades, de las cuales los expertos han tomado muestras de algunos aspectos microbiológicos, físicos. y factores químicos. Queremos encontrar patrones en los ecosistemas. Estos factores tienen una alta correlación, pero sabemos que todos son relevantes, por lo que no queremos eliminar estas redundancias. Usamos la distancia euclidiana con datos escalados para evitar el efecto de las unidades.

El Mahalanobis distancia es apropiado cuando tengo variables numéricas continuas y quiero reflejar distancias absolutas, pero queremos eliminar redundancias. Si tenemos variables repetidas, su efecto repetitivo desaparecerá.

La familia Hellinger , Perfil de la especie y La distancia de cuerda son apropiadas cuando queremos enfatizar las diferencias entre variables , cuando queremos diferenciar perfiles. Estas distancias se ponderan por las cantidades totales de cada observación, de tal manera que las distancias son pequeñas cuando variable por variable los individuos son más similares, aunque en magnitudes absolutas fue muy diferente. ¡Cuidado! Estas distancias reflejan muy bien la diferencia entre perfiles, pero perdieron el efecto de magnitud. Podrían ser muy útiles cuando tenemos diferentes tamaños de muestra.
Ecología de ejemplo: Queremos estudiar la fauna de muchas tierras y tenemos una matriz de datos de un inventario de gasterópodos (ubicaciones de muestreo en filas y nombres de especies en columnas). La matriz se caracteriza por tener muchos ceros y diferentes magnitudes porque algunas localidades tienen algunas especies y otras tienen otras especies. Podríamos usar la distancia Hellinger.

Bray-Curtis es bastante similar, pero es más apropiado cuando queremos diferenciar perfiles y también tener en cuenta magnitudes relativas.

Comentarios

  • Gracias por diferenciar los casos de uso y ejemplos. Encontré esto muy útil en la aplicación a un modelo de clasificación aeronáutica.

Respuesta

Con respecto a la distancia de Manhattan: Kaufman, Leonard y Peter J. Rousseeuw. «Encontrar grupos en los datos: una introducción al análisis de conglomerados». (2005).

Se aconseja el uso de la distancia de Manhattan en aquellas situaciones en las que, por ejemplo, una diferencia de 1 en la primera variable, y de 3 en la segunda variable es lo mismo que una diferencia de 2 en la primera variable y de 2 en la segunda.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *