Vilket avstånd ska man använda? t.ex. manhattan, euclidean, Bray-Curtis, etc

Jag är inte en samhällsekolog, men dessa dagar arbetar jag med samhällsekologiska data.

Vad jag inte kunde förstå, förutom matematiken för dessa avstånd, är kriterierna för varje avstånd som ska användas och i vilka situationer det kan tillämpas. Till exempel, vad ska jag använda med räkningsdata? Hur konverterar man lutning vinkel mellan två platser i ett avstånd? Eller temperaturen eller nederbörden på två platser? Vilka antaganden görs för varje avstånd och när är det vettigt?

Kommentarer

  • Det pålitliga sättet att förstå avståndsmätvärden, deras antaganden, betydelse och användbarhet är att meditera över deras formler. Du vet, jämförande anatomi har låtit förutsäga hur olika djur lever och beter sig. Läs också böcker / artiklar om avståndsmätningar .
  • Pedantisk anteckning: Bray – Curtis är inte ett avstånd utan en olikhet.

Svar

Tyvärr finns det i de flesta situationer inte ett tydligt svar på din fråga. Det vill säga för varje given applikation finns det säkert många avståndsmätningar som ger liknande och korrekta svar. Med tanke på att det finns dussintals och förmodligen hundratals giltiga avståndsmätvärden som aktivt används, är tanken att du kan hitta ”rätt” avstånd inte ett produktivt sätt att tänka på problemet med att välja en lämplig avståndsmätning.

Jag skulle istället fokusera på att inte välja fel avståndsmått. Vill du att ditt avstånd ska återspegla ”absolut storlek” (till exempel är du intresserad av att använda avståndet för att identifiera aktier som har liknande medelvärden) eller för att återspegla svarets totala form (t.ex. aktiekurser som fluktuerar liknande över tiden, men kan ha helt olika råvärden)? Det tidigare scenariot skulle indikera avstånd som Manhattan och Euklidean, medan det senare skulle indikera korrelationsavstånd, till exempel.

Om du känner till kovariansstrukturen för dina data är Mahalanobis avstånd förmodligen mer lämpligt. För rent kategoriska data finns det många föreslagna avstånd, till exempel matchningsavstånd. För blandat kategoriskt och kontinuerligt Gowers avstånd är populärt (även om det enligt min mening är något teoretiskt otillfredsställande).

Slutligen kommer min analys att stärkas om du visar att dina resultat och slutsatser är robusta mot valet av avståndsmått (naturligtvis inom delmängden av lämpliga avstånd). Om din analys förändras drastiskt med subtila förändringar i det avståndsmätvärde som används, bör ytterligare undersökningar göras för att identifiera orsaken till inkonsekvensen.

Kommentarer

  • Vad menar du med correlation distance? 1- r ?
  • @ttnphns japp, $ 1-r $ är vanligast. Det är ’ det är värt att notera att för en given likhetsmått $ \ rho \ i [-1,1] $ där är minst tre formler för att konvertera till en olikhet: (1) Bhattacharyya ’ s metod $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ’ s metod $ 1- \ rho $, och (3) Matusita ’ s metod $ \ sqrt {2-2 \ rho} $. Detta är ett annat område där jag i $ praxis inte tror ’ att valet brukar betyda mycket, och om det gjorde det skulle jag vara bekymrad över robustheten i mina resultat.
  • Citat för min senaste kommentar: Krzanowski (1983). Biometrika, 70 (1), 235–243. Se sidan 236.
  • OK, tack. Kontrollera även detta svar tack. Det pekar på det faktum att r är exakt relaterat till euklidiskt avstånd erhållet på standardiserade data (profiler som jämförs), vilket reflect overall shape of the response i dina ord.
  • Bra inlägg. De två mätvärdena är verkligen relaterade, som du påpekar. För att kontextualisera dina poäng till den aktuella diskussionen är nyckeldifferensen att i euklidiska avståndsvariabler inte (vanligtvis) är centrerade, men korrelationsformeln centrerar variabler och skalor med deras standardavvikelse. Korrelationen är således oförändrad för linjära transformationer, medan euklidiskt avstånd inte nödvändigtvis är.

Svar

Välja rätt avstånd är inte en elementär uppgift. När vi vill göra en klusteranalys på en datauppsättning kan olika resultat visas med olika avstånd, så det är väldigt viktigt att vara försiktig i vilket avstånd vi ska välja eftersom vi kan göra en falsk bra artefakt som väl fångar variationen, men faktiskt utan mening i vårt problem.

Euklidiska avståndet är lämpligt när jag har kontinuerliga numeriska variabler och Jag vill spegla absoluta avstånd.Detta avstånd tar hänsyn till varje variabel och tar inte bort uppsägningar, så om jag hade tre variabler som förklarar samma (är korrelerade) skulle jag väga denna effekt med tre. Dessutom är detta avstånd inte invariant, så generellt måste jag skala tidigare för att använda avståndet.
Exempel på ekologi: Vi har olika observationer från många orter, av vilka experterna har tagit prover av några mikrobiologiska, fysiska och kemiska faktorer. Vi vill hitta mönster i ekosystem. Dessa faktorer har en hög korrelation, men vi vet att alla är relevanta, så vi vill inte ta bort dessa uppsägningar. Vi använder det euklidiska avståndet med skalade data för att undvika effekten av enheter.

Mahalanobis avstånd är lämpligt när jag har kontinuerliga numeriska variabler och jag vill återspegla absoluta avstånd, men vi vill ta bort uppsägningar. Om vi har upprepade variabler försvinner deras upprepade effekt.

Familjen Hellinger , Artprofil och Ackordavstånd är lämpliga när vi vill betona skillnader mellan variabler , när vi vill skilja på profiler. Dessa avstånd väger efter totala kvantiteter för varje observation, på ett sådant sätt att avstånden är små när individerna är variabla med variabla, men även i absoluta magnituder var de mycket olika. Se upp! Dessa avstånd speglar mycket väl skillnaden mellan profiler, men förlorade storlekseffekten. De kan vara mycket användbara när vi har olika provstorlekar.
Exempel på ekologi: Vi vill studera faunan i många länder och vi har en datamatris över en inventering av gastropoden (provtagningsplatser i rader och artsnamn i kolumner). Matrisen kännetecknas av att ha många nollor och olika storlek eftersom vissa orter har vissa arter och andra har andra arter. Vi kan använda Hellinger-avståndet.

Bray-Curtis är ganska lika, men det är mer lämpligt när vi vill skilja på profiler och även ta hänsyn till relativa storlekar.

Kommentarer

  • Tack för att du skiljer dig från användningsfall och exempel. Tyckte att det här var mycket användbart när det gäller en flygklassificeringsmodell.

Svar

När det gäller Manhattan-avståndet: Kaufman, Leonard och Peter J. Rousseeuw. ”Hitta grupper i data: En introduktion till klusteranalys.” (2005).

Användningen av Manhattan-distansen rekommenderas i de situationer där till exempel en skillnad på 1 i den första variabeln, och av 3 i den andra variabeln är samma som en skillnad på 2 i den första variabeln och av 2 i den andra.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *