Qual distância usar? por exemplo, manhattan, euclidean, Bray-Curtis, etc.

Não sou um ecologista comunitário, mas atualmente estou trabalhando com dados de ecologia comunitária.

O que eu não consegui entender, além da matemática dessas distâncias, é o critério de cada distância a ser usada e em que situações ela pode ser aplicada. Por exemplo, o que usar com dados de contagem? Como converter inclinação ângulo entre dois locais em uma distância? Ou a temperatura ou precipitação em dois locais? Quais são as suposições para cada distância e quando faz sentido?

Comentários

  • A maneira confiável de entender as métricas de distância, seus pressupostos, significado e aplicabilidade é meditar sobre suas fórmulas. Você sabe, a anatomia comparada permite prever como diferentes animais vivem e se comportam. Além disso, leia livros / artigos sobre métricas de distância .
  • Observação pedante: Bray – Curtis não é uma distância, mas uma diferença.

Resposta

Infelizmente, na maioria das situações, não há uma resposta clara para sua pergunta. Ou seja, para qualquer aplicação, certamente existem muitas métricas de distância que produzirão respostas semelhantes e precisas. Considerando que existem dezenas, e provavelmente centenas, de métricas de distância válidas sendo usadas ativamente, a noção de que você pode encontrar a distância “certa” não é uma maneira produtiva de pensar sobre o problema de selecionar uma métrica de distância apropriada.

Em vez disso, prefiro não escolher a métrica de distância errada . Você deseja que sua distância reflita a “magnitude absoluta” (por exemplo, você está interessado em usar a distância para identificar ações que têm valores médios semelhantes) ou para refletir a forma geral da resposta (por exemplo, preços de ações que flutuam de forma semelhante ao longo do tempo, mas pode ter valores brutos totalmente diferentes)? O primeiro cenário indicaria distâncias como Manhattan e Euclidiana, enquanto o último indicaria distância de correlação, por exemplo.

Se você conhece a estrutura de covariância de seus dados, então a distância de Mahalanobis é provavelmente mais apropriada. Para dados puramente categóricos, existem muitas distâncias propostas, por exemplo, distâncias correspondentes. Para mistos categóricos e contínuos, a distância de Gower é popular (embora um tanto teoricamente insatisfatória na minha opinião).

Finalmente, na minha opinião, sua análise será reforçada se você demonstrar que seus resultados e conclusões são robustos para a escolha da métrica de distância (dentro do subconjunto de distâncias apropriadas, é claro). Se sua análise mudar drasticamente com mudanças sutis na métrica de distância usada, um estudo mais aprofundado deve ser realizado para identificar o motivo da inconsistência.

Comentários

  • O que você quer dizer com correlation distance? 1- r ?
  • @ttnphns sim, $ 1-r $ é o mais comum. ‘ vale a pena notar que, para uma determinada métrica de similaridade $ \ rho \ in [-1,1] $ lá são pelo menos três fórmulas para conversão em uma dissimilaridade: (1) Bhattacharyya ‘ método $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‘ s método $ 1- \ rho $, e (3) Matusita ‘ s método $ \ sqrt {2-2 \ rho} $. Esta é outra área em que, na prática $, $ eu não ‘ não acho que a escolha importe muito e, se importasse, ficaria preocupado com a robustez dos meus resultados.
  • Citação para meu último comentário: Krzanowski (1983). Biometrika, 70 (1), 235–243. Consulte a página 236.
  • OK, obrigado. Verifique também esta resposta . Aponta para o fato de que r está exatamente relacionado à distância euclidiana obtida nos dados padronizados (perfis sendo comparados), que reflect overall shape of the response em suas palavras.
  • Boa postagem. As duas métricas estão de fato relacionadas, como você destacou. Para contextualizar seus pontos para a discussão atual, a principal diferença é que na distância euclidiana as variáveis não são (normalmente) centralizadas, mas a fórmula de correlação centraliza as variáveis e escalas pelo seu desvio padrão. Assim, a correlação é invariante para transformações lineares, enquanto a distância euclidiana não é necessariamente.

Resposta

Escolhendo o correto distância não é uma tarefa elementar. Quando queremos fazer uma análise de cluster em um conjunto de dados, resultados diferentes podem aparecer usando distâncias diferentes, por isso é muito importante ter cuidado com a distância a escolher, pois podemos fazer um artefato falso bom que captura bem a variabilidade, mas na verdade, sem sentido em nosso problema.

A distância euclidiana é apropriada quando eu tenho variáveis numéricas contínuas e Eu quero refletir distâncias absolutas.Esta distância leva em consideração todas as variáveis e não remove redundâncias, então se eu tivesse três variáveis que explicam o mesmo (são correlacionadas), eu ponderaria este efeito por três. Além disso, essa distância não é invariante de escala, então geralmente eu tenho que escalar previamente para usar a distância.
Exemplo de ecologia: temos diferentes observações de muitas localidades, das quais os especialistas tiraram amostras de alguns aspectos físicos e microbiológicos e fatores químicos. Queremos encontrar padrões em ecossistemas. Esses fatores têm uma alta correlação, mas sabemos que todos são relevantes, então não queremos remover essas redundâncias. Usamos a distância euclidiana com dados em escala para evitar o efeito das unidades.

O Mahalanobis distance é apropriado quando eu tenho variáveis numéricas contínuas e desejo refletir distâncias absolutas, mas queremos remover redundâncias. Se tivermos variáveis repetidas, seu efeito repetitivo desaparecerá.

A família Hellinger , Perfil da espécie e Distância do acorde são apropriados quando queremos enfatizar as diferenças entre as variáveis , quando queremos diferenciar perfis. Essas distâncias pesam pelas quantidades totais de cada observação, de forma que as distâncias são pequenas quando variável a variável os indivíduos são mais semelhantes, embora em magnitudes absolutas fosse muito diferente. Atenção! Essas distâncias refletem muito bem a diferença entre os perfis, mas perdem o efeito de magnitude. Eles podem ser muito úteis quando temos diferentes tamanhos de amostra.
Exemplo de ecologia: Queremos estudar a fauna de muitas terras e temos uma matriz de dados de um inventário do gastrópode (locais de amostragem em linhas e nomes de espécies em colunas). A matriz é caracterizada por ter muitos zeros e diferentes magnitudes, pois algumas localidades possuem algumas espécies e outras possuem outras espécies. Poderíamos usar a distância de Hellinger.

Bray-Curtis é bastante semelhante, mas é mais apropriado quando queremos diferenciar perfis e também levar em consideração magnitudes relativas.

Comentários

  • Obrigado por diferenciar os casos de uso e exemplos. Considerou muito útil na aplicação a um modelo de classificação aerodinâmica.

Resposta

Em relação à distância de Manhattan: Kaufman, Leonard e Peter J. Rousseeuw. “Encontrando grupos em dados: uma introdução à análise de cluster.” (2005).

O uso da distância Manhattan é aconselhado naquelas situações em que por exemplo uma diferença de 1 na primeira variável, e de 3 na segunda variável é o mesmo que uma diferença de 2 na primeira variável e de 2 na segunda.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *