Hvilken afstand skal du bruge? f.eks. manhattan, euclidean, Bray-Curtis osv.

Jeg er ikke en samfundsøkolog, men i disse dage arbejder jeg på data om samfundsøkologi.

Hvad jeg ikke kunne forstå, bortset fra matematikken i disse afstande, er kriterierne for hver afstand, der skal bruges, og i hvilke situationer den kan anvendes. For eksempel hvad skal jeg bruge med tælledata? Hvordan konverteres hældning vinkel mellem to placeringer i en afstand? Eller temperaturen eller nedbøren to steder? Hvad er forudsætningerne for hver afstand, og hvornår giver det mening?

Kommentarer

  • Den pålidelige måde at forstå afstandsmetrikker, deres antagelser, betydning og anvendelighed er at meditere på deres formler. Du ved, at komparativ anatomi har givet mulighed for at forudsige, hvordan forskellige dyr lever og opfører sig. Læs også bøger / artikler om afstandsmålinger .
  • Pedantisk note: Bray – Curtis er ikke en afstand, men en ulighed.

Svar

Desværre er der i de fleste situationer ikke et klart svar på dit spørgsmål. Det vil sige, for enhver given applikation er der helt sikkert mange afstandsmålinger, der giver lignende og nøjagtige svar. I betragtning af at der er snesevis af og sandsynligvis hundreder af gyldige afstandsmålinger, der aktivt bruges, er tanken om, at du kan finde den “rigtige” afstand, ikke en produktiv måde at tænke på problemet med at vælge en passende afstandsmåling.

Jeg vil i stedet fokusere på ikke at vælge forkert afstandsmetrik. Ønsker du, at din afstand afspejler “absolut størrelse” (for eksempel er du interesseret i at bruge afstanden til at identificere lagre, der har lignende middelværdier), eller at afspejle svarets samlede form (f.eks. Aktiekurser, der svinger ens over tid, men kan have helt forskellige råværdier)? Førstnævnte scenarie ville indikere afstande som Manhattan og Euklidean, mens sidstnævnte f.eks. Angiver korrelationsafstand.

Hvis du kender kovariansstrukturen for dine data, er Mahalanobis afstand sandsynligvis mere passende. For rent kategoriske data er der mange foreslåede afstande, for eksempel matchende afstand. For blandet kategorisk og kontinuerlig Gowers afstand er populær (selvom det er noget teoretisk utilfredsstillende efter min mening).

Endelig vil din analyse efter min mening blive styrket, hvis du viser, at dine resultater og konklusioner er robuste til valget af afstandsmetrik (naturligvis inden for delmængden af passende afstande). Hvis din analyse ændrer sig drastisk med subtile ændringer i den anvendte afstandsmetrik, bør der foretages yderligere undersøgelse for at identificere årsagen til inkonsekvensen.

Kommentarer

  • Hvad mener du med correlation distance? 1- r ?
  • @ttnphns yep, $ 1-r $ er mest almindelig. Det er ‘ det er værd at bemærke, at for en given lighedsmetrik $ \ rho \ i [-1,1] $ der er mindst tre formler til konvertering til en ulighed: (1) Bhattacharyya ‘ s metode $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‘ s metode $ 1- \ rho $, og (3) Matusita ‘ s metode $ \ sqrt {2-2 \ rho} $. Dette er et andet område, hvor $ jeg i $ praksis ikke ‘ ikke tror, at valget normalt betyder meget, og hvis det gjorde det, ville jeg være bekymret for robustheden i mine resultater.
  • Henvisning til min sidste kommentar: Krzanowski (1983). Biometrika, 70 (1), 235-243. Se side 236.
  • OK, tak. Tjek også dette svar tak. Det peger på det faktum, at r er nøjagtigt relateret til euklidisk afstand opnået på de standardiserede data (profiler, der sammenlignes), som reflect overall shape of the response i dine ord.
  • Godt indlæg. De to målinger er faktisk relaterede, som du påpeger. For at kontekstualisere dine punkter til den aktuelle diskussion er nøgleforskellen, at variabler i euklidiske afstand ikke (normalt) er centreret, men korrelationsformlen centrerer variabler og skalaer efter deres standardafvigelse. Således er korrelation uforanderlig med lineære transformationer, mens euklidisk afstand ikke nødvendigvis er.

Svar

Valg af det rigtige afstand er ikke en elementær opgave. Når vi vil lave en klyngeanalyse på et datasæt, kan forskellige resultater vises ved hjælp af forskellige afstande, så det er meget vigtigt at være forsigtig i hvilken afstand vi skal vælge, fordi vi kan lave en falsk god artefakt, der fanger godt variationen, men faktisk uden mening i vores problem.

Euklidisk afstand er passende, når jeg har kontinuerlige numeriske variabler og Jeg vil reflektere absolutte afstande.Denne afstand tager højde for hver variabel og fjerner ikke afskedigelser, så hvis jeg havde tre variabler, der forklarer det samme (er korreleret), ville jeg vægte denne effekt med tre. Desuden er denne afstand ikke uændret i skala, så generelt skal jeg skalere tidligere for at bruge afstanden.
Eksempel på økologi: Vi har forskellige observationer fra mange lokaliteter, hvoraf eksperterne har taget prøver af nogle mikrobiologiske, fysiske og kemiske faktorer. Vi ønsker at finde mønstre i økosystemer. Disse faktorer har en høj sammenhæng, men vi ved, at alle er relevante, så vi ønsker ikke at fjerne disse afskedigelser. Vi bruger den euklidiske afstand med skalerede data for at undgå effekten af enheder.

Mahalanobis distance er passende, når jeg har kontinuerlige numeriske variabler, og jeg vil reflektere absolutte afstande, men vi vil fjerne afskedigelser. Hvis vi har gentagne variabler, forsvinder deres gentagne effekt.

Familien Hellinger , Artsprofil og Akkordafstand er passende, når vi vil lægge vægt på forskelle mellem variabler , når vi ønsker at differentiere profiler. Disse afstande vejer med de samlede mængder af hver observation på en sådan måde, at afstande er små, når individet er variabelt efter variabel, selv om det i absolutte størrelser var meget forskelligt. Pas på! Disse afstande afspejler meget godt forskellen mellem profiler, men mistede størrelseseffekten. De kan være meget nyttige, når vi har forskellige stikprøvestørrelser.
Eksempel på økologi: Vi vil undersøge faunaen i mange lande, og vi har en datamatrix over en oversigt over gastropoden (prøveudtagningssteder i rækker og artsnavne i kolonner). Matrixen er kendetegnet ved at have mange nuller og forskellige størrelser, fordi nogle lokaliteter har nogle arter og andre har andre arter. Vi kunne bruge Hellinger-afstanden.

Bray-Curtis er ret ens, men det er mere passende, når vi vil skelne mellem profiler og også tage højde for den relative størrelse.

Kommentarer

  • Tak fordi du adskiller brugssagerne og eksemplerne. Fandt dette meget nyttigt i forbindelse med en aero-klassificeringsmodel.

Svar

Med hensyn til afstanden på Manhattan: Kaufman, Leonard og Peter J. Rousseeuw. “Finde grupper i data: En introduktion til klyngeanalyse.” (2005).

Brug af Manhattan-afstanden anbefales i de situationer, hvor f.eks. En forskel på 1 i den første variabel, og 3 i den anden variabel er den samme som en forskel på 2 i den første variabel og af 2 i den anden.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *