Hvilken avstand skal du bruke? f.eks. Manhattan, euklidisk, Bray-Curtis osv.

Jeg er ikke samfunnsøkolog, men i disse dager jobber jeg med samfunnsøkologiske data.

Det jeg ikke kunne forstå, bortsett fra matematikken til disse avstandene, er kriteriene for hver avstand som skal brukes, og i hvilke situasjoner den kan brukes. For eksempel hva skal jeg bruke med telledata? Hvordan konvertere skråning vinkel mellom to steder i en avstand? Eller temperaturen eller nedbøren på to steder? Hva er forutsetningene for hver avstand, og når gir det mening?

Kommentarer

  • Den pålitelige måten å forstå avstandsmetrikker, deres antagelser, mening og anvendelighet er å meditere på formlene deres. Du vet, komparativ anatomi har gjort det mulig å forutsi hvordan forskjellige dyr lever og oppfører seg. Les også bøker / artikler om avstandsmetoder .
  • Pedantisk merknad: Bray – Curtis er ikke en avstand, men en ulikhet.

Svar

I de fleste situasjoner er det dessverre ikke noe tydelig svar på spørsmålet ditt. Det vil si at for en gitt applikasjon er det sikkert mange avstandsmålinger som gir lignende og nøyaktige svar. Tatt i betraktning at det er dusinvis og sannsynligvis hundrevis av gyldige avstandsmetoder som aktivt brukes, er ikke forestillingen om at du kan finne den «riktige» avstanden en produktiv måte å tenke på problemet med å velge en passende avstandsmåling.

Jeg vil i stedet fokusere på ikke å velge feil avstandsmåling. Ønsker du at avstanden din skal gjenspeile «absolutt størrelse» (for eksempel er du interessert i å bruke avstanden til å identifisere aksjer som har lignende gjennomsnittsverdier), eller å gjenspeile den generelle responsformen (f.eks. Aksjekurser som svinger like over tid, men kan ha helt andre råverdier)? Det tidligere scenariet vil indikere avstander som Manhattan og Euklidean, mens sistnevnte vil indikere for eksempel korrelasjonsavstand.

Hvis du kjenner kovariansstrukturen til dataene dine, er sannsynligvis Mahalanobis-avstanden mer passende. For rent kategoriske data er det mange foreslåtte avstander, for eksempel samsvarende avstand. For blandet kategorisk og kontinuerlig Gowers avstand er populær (selv om det er noe teoretisk utilfredsstillende etter min mening).

Til slutt vil analysen etter min mening bli styrket hvis du viser at resultatene og konklusjonene dine er robuste for valg av avstandsmåling (selvfølgelig innenfor delmengden av passende avstander). Hvis analysen din endres drastisk med subtile endringer i avstandsmetrikken som brukes, bør ytterligere studier utføres for å identifisere årsaken til inkonsekvensen.

> Kommentarer

  • Hva mener du med correlation distance? 1- r ?
  • @ttnphns yep, $ 1-r $ er mest vanlig. Det er ‘ det er verdt å merke seg at for en gitt likhetsmetrisk $ \ rho \ i [-1,1] $ der er minst tre formler for å konvertere til en ulikhet: (1) Bhattacharyya ‘ s metode $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‘ s metode $ 1- \ rho $, og (3) Matusita ‘ s metode $ \ sqrt {2-2 \ rho} $. Dette er et annet område der jeg i $ praksis ikke tror ‘ t mener at valget vanligvis betyr mye, og hvis det gjorde det, ville jeg være bekymret for robustheten i resultatene mine.
  • Sitat for min siste kommentar: Krzanowski (1983). Biometrika, 70 (1), 235-243. Se side 236.
  • OK, takk. Sjekk også dette svaret takk. Det peker på det faktum at r er nøyaktig relatert til euklidisk avstand oppnådd på standardiserte data (profiler som sammenlignes), som reflect overall shape of the response i dine ord.
  • Bra innlegg. De to beregningene er faktisk relaterte, som du påpeker. For å kontekstualisere poengene dine for den nåværende diskusjonen er nøkkelforskjellen at i euklidiske avstandsvariabler ikke er (vanligvis) sentrerte, men korrelasjonsformelen sentrerer variabler og skalaer etter deres standardavvik. Dermed er korrelasjon uforanderlig til lineære transformasjoner, mens euklidisk avstand ikke nødvendigvis er.

Svar

Velge riktig avstand er ikke en elementær oppgave. Når vi ønsker å lage en klyngeanalyse på et datasett, kan forskjellige resultater vises med forskjellige avstander, så det er veldig viktig å være forsiktig i hvilken avstand vi skal velge fordi vi kan lage en falsk god gjenstand som fanger godt variabiliteten, men faktisk uten mening i vårt problem.

Euklidisk avstand er passende når jeg har kontinuerlige numeriske variabler og Jeg vil reflektere absolutte avstander.Denne avstanden tar hensyn til hver variabel og fjerner ikke permitteringer, så hvis jeg hadde tre variabler som forklarer det samme (er korrelert), ville jeg vekt denne effekten med tre. Dessuten er denne avstanden ikke uendelig i skala, så generelt må jeg skalere tidligere for å bruke avstanden.
Eksempel på økologi: Vi har forskjellige observasjoner fra mange lokaliteter, hvor ekspertene har tatt prøver av noen mikrobiologiske, fysiske og kjemiske faktorer. Vi ønsker å finne mønstre i økosystemer. Disse faktorene har høy korrelasjon, men vi vet at alle er relevante, så vi vil ikke fjerne disse permitteringene. Vi bruker den euklidiske avstanden med skalerte data for å unngå effekten av enheter.

Mahalanobis avstand er passende når jeg har kontinuerlige numeriske variabler og jeg vil reflektere absolutte avstander, men vi vil fjerne permitteringer. Hvis vi har gjentatte variabler, vil deres repeterende effekt forsvinne.

Familien Hellinger , Artsprofil og Akkordavstand er passende når vi vil legge vekt på forskjeller mellom variabler , når vi vil skille profiler. Disse avstandene veier etter totale mengder av hver observasjon, på en slik måte at avstandene er små når individene varierer etter variabel, er mer like, selv om de i absolutte størrelser var veldig forskjellige. Pass på! Disse avstandene gjenspeiler veldig godt forskjellen mellom profilene, men mistet størrelseseffekten. De kan være veldig nyttige når vi har forskjellige prøvestørrelser.
Eksempel på økologi: Vi ønsker å studere faunaen i mange land, og vi har en datamatrise over en oversikt over gastropoden (prøvetakingssteder i rader og artsnavn) i kolonner). Matrisen er preget av å ha mange nuller og forskjellige størrelser fordi noen lokaliteter har noen arter og andre har andre arter. Vi kan bruke Hellinger-avstand.

Bray-Curtis er ganske lik, men det er mer hensiktsmessig når vi vil skille profiler og også ta hensyn til relative størrelser.

Kommentarer

  • Takk for at du avviker brukssakene og eksemplene. Fant dette veldig nyttig når det gjelder anvendelse av en aero-klassifikasjonsmodell.

Svar

Når det gjelder Manhattan-avstanden: Kaufman, Leonard og Peter J. Rousseeuw. «Finne grupper i data: En introduksjon til klyngeanalyse.» (2005).

Bruk av Manhattan-distansen anbefales i de situasjonene der for eksempel en forskjell på 1 i den første variabelen, og av 3 i den andre variabelen er den samme som en forskjell på 2 i den første variabelen og av 2 i den andre.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *