Quale distanza usare? ad es. manhattan, euclidean, Bray-Curtis, ecc.

Non sono un ecologista della comunità, ma in questi giorni lavoro sui dati dellecologia della comunità.

Quello che non sono riuscito a capire, a parte la matematica di queste distanze, è il criterio per ciascuna distanza da utilizzare e in quali situazioni può essere applicato. Ad esempio, cosa usare con i dati di conteggio? Come convertire la pendenza angolo tra due posizioni in una distanza? O la temperatura o la pioggia in due posizioni? Quali sono le ipotesi per ciascuna distanza e quando ha senso?

Commenti

  • Il modo affidabile per comprendere le metriche della distanza, le loro ipotesi, il significato e lapplicabilità è meditare sulle loro formule. Sai, lanatomia comparativa ha permesso di prevedere come vivono e si comportano i diversi animali. Inoltre, leggi libri / articoli sulle metriche della distanza .
  • Nota pedante: Bray – Curtis non è una distanza ma una dissomiglianza.

Risposta

Sfortunatamente, nella maggior parte delle situazioni non cè una risposta chiara alla tua domanda. Cioè, per ogni data applicazione, ci sono sicuramente molte metriche di distanza che produrranno risposte simili e accurate. Considerando che ci sono dozzine, e probabilmente centinaia, di metriche di distanza valide utilizzate attivamente, lidea che si possa trovare la distanza “giusta” non è un modo produttivo per pensare al problema di selezionare una metrica di distanza appropriata.

Mi concentrerei invece sul non scegliere la metrica della distanza sbagliata . Desideri che la tua distanza rifletta la “grandezza assoluta” (ad esempio, sei interessato a utilizzare la distanza per identificare azioni che hanno valori medi simili) o che rifletta la forma complessiva della risposta (ad esempio i prezzi delle azioni che fluttuano in modo simile nel tempo, ma può avere valori grezzi completamente diversi)? Il primo scenario indicherebbe distanze come Manhattan ed Euclide, mentre il secondo indicherebbe la distanza di correlazione, ad esempio.

Se conosci la struttura di covarianza dei tuoi dati, la distanza di Mahalanobis è probabilmente più appropriata. Per i dati puramente categoriali ci sono molte distanze proposte, ad esempio la distanza corrispondente. Per la distanza mista categoriale e continua di Gower è popolare, (sebbene a mio parere un po teoricamente insoddisfacente).

Infine, a mio parere, la tua analisi sarà rafforzata se dimostrerai che i tuoi risultati e la scelta della metrica della distanza (allinterno del sottoinsieme delle distanze appropriate, ovviamente). Se la tua analisi cambia drasticamente con sottili cambiamenti nella metrica della distanza utilizzata, è necessario effettuare ulteriori studi per identificare il motivo dellincoerenza.

Commenti

  • Cosa intendi con correlation distance? 1- r ?
  • @ttnphns yep, $ 1-r $ è il più comune. ‘ vale la pena notare che per una data metrica di somiglianza $ \ rho \ in [-1,1] $ lì ci sono almeno tre formule per la conversione a una dissomiglianza: (1) Bhattacharyya ‘ s metodo $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‘ s metodo $ 1- \ rho $ e (3) Matusita ‘ s metodo $ \ sqrt {2-2 \ rho} $. Questa è unaltra area in cui $ practice $ non ‘ penso che la scelta di solito sia molto importante e, se lo fosse, sarei preoccupato per la robustezza dei miei risultati.
  • Citazione per il mio ultimo commento: Krzanowski (1983). Biometrika, 70 (1), 235-243. Vedi pagina 236.
  • OK, grazie. Controlla anche questa risposta per favore. Sottolinea il fatto che r è esattamente correlato alla distanza euclidea ottenuta sui dati standardizzati (profili confrontati), che reflect overall shape of the response nelle tue parole.
  • Buon post. Le due metriche sono effettivamente correlate, come fai notare. Per contestualizzare i tuoi punti alla discussione corrente, la differenza fondamentale è che in euclidee le variabili di distanza non sono (di solito) centrate, ma la formula di correlazione centra le variabili e le scale in base alla loro deviazione standard. Pertanto, la correlazione è invariante alle trasformazioni lineari, mentre la distanza euclidea non lo è necessariamente.

Risposta

Scegliere la giusta la distanza non è un compito elementare. Quando vogliamo fare unanalisi cluster su un set di dati, potrebbero apparire risultati diversi usando distanze differenti, quindi è molto importante fare attenzione a quale distanza scegliere perché possiamo creare un artefatto falso buono che catturi bene la variabilità, ma in realtà senza senso nel nostro problema.

La distanza euclidea è appropriata quando ho variabili numeriche continue e Voglio riflettere distanze assolute.Questa distanza tiene conto di ogni variabile e non rimuove le ridondanze, quindi se avessi tre variabili che spiegano lo stesso (sono correlate), peserei questo effetto per tre. Inoltre, questa distanza non è invariante di scala, quindi generalmente devo scalare in precedenza per utilizzare la distanza.
Esempio di ecologia: abbiamo diverse osservazioni da molte località, di cui gli esperti hanno prelevato campioni di alcuni microbiologici, fisici e fattori chimici. Vogliamo trovare modelli negli ecosistemi. Questi fattori hanno unelevata correlazione, ma sappiamo che tutti sono rilevanti, quindi non vogliamo rimuovere queste ridondanze. Usiamo la distanza euclidea con dati in scala per evitare leffetto delle unità.

Il Mahalanobis distanza è appropriato quando ho variabili numeriche continue e voglio riflettere distanze assolute, ma vogliamo rimuovere le ridondanze. Se abbiamo variabili ripetute, il loro effetto ripetitivo scomparirà.

La famiglia Hellinger , Species Profile e Chord distance sono appropriati quando vogliamo sottolineare le differenze tra le variabili , quando vogliamo differenziare i profili. Queste distanze pesano per quantità totali di ciascuna osservazione, in modo tale che le distanze siano piccole quando variabili per variabile gli individui sono più simili, anche se in magnitudini assolute erano molto diverse. Attento! Queste distanze riflettono molto bene la differenza tra i profili, ma hanno perso leffetto di grandezza. Potrebbero essere molto utili quando abbiamo campioni di dimensioni diverse.
Esempio di ecologia: vogliamo studiare la fauna di molte terre e abbiamo una matrice di dati di un inventario del gasteropode (luoghi di campionamento in righe e nomi di specie in colonne). La matrice è caratterizzata dallavere molti zeri e diverse grandezze perché alcune località hanno alcune specie e altre hanno altre specie. Potremmo usare la distanza di Hellinger.

Bray-Curtis è abbastanza simile, ma è più appropriato quando vogliamo differenziare i profili e prendere in considerazione anche le grandezze relative.

Commenti

  • Grazie per aver differenziato i casi duso e gli esempi. Lho trovato molto utile nellapplicazione a un modello di classificazione aerodinamica.

Risposta

Per quanto riguarda la distanza da Manhattan: Kaufman, Leonard e Peter J. Rousseeuw. “Trovare gruppi nei dati: unintroduzione allanalisi dei cluster”. (2005).

Lutilizzo della distanza Manhattan è consigliato in quelle situazioni dove ad esempio una differenza di 1 nella prima variabile, e di 3 nella seconda variabile è uguale a una differenza di 2 nella prima variabile e di 2 nella seconda.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *