Melyik távolságot kell használni? pl. Manhattan, euklideszi, Bray-Curtis stb.

Nem vagyok közösségi ökológus, de manapság közösségi ökológiai adatokkal dolgozom.

Amit ezen távolságok matematikájától eltekintve nem tudtam megérteni, az az, hogy milyen kritériumok vannak az egyes távolságokhoz, és milyen helyzetekben alkalmazhatók. Például mit kell használni a számlálási adatokkal? szög két távolság között egy távolságba? Vagy a hőmérséklet vagy a csapadék két helyen? Milyen feltételezések vannak az egyes távolságokról, és mikor van értelme?

Megjegyzések

  • A távolságmérők, feltételezéseik, jelentésük és alkalmazhatóságuk megértésének megbízható módja a képleteiken való elmélkedés. Tudja, hogy az összehasonlító anatómia lehetővé tette a különböző állatok életének és viselkedésének előrejelzését. Olvasson el könyveket / cikkeket a távolságmérőkről .
  • Pedáns megjegyzés: Bray – Curtis nem távolság, hanem eltérés.

Válasz

Sajnos a legtöbb helyzetben nincs egyértelmű válasz a kérdésedre. Vagyis minden adott alkalmazás esetében biztosan sok olyan távolságmérő mutató létezik, amelyek hasonló és pontos válaszokat adnak. Figyelembe véve, hogy több tucat, és valószínűleg több száz érvényes távolságmérőt használnak aktívan, az a gondolat, hogy megtalálja a “megfelelő” távolságot, nem eredményes módszer arra, hogy elgondolkodjon a megfelelő távolságmérő kiválasztásának problémáján.

Ehelyett arra koncentrálnék, hogy ne válassza a rossz távolság mutatót. Szeretné, hogy a távolság tükrözze az “abszolút nagyságrendet” (például érdekli a távolság azonos átlagértékű részvények azonosítására), vagy a válasz általános alakját tükrözi (pl. A tőzsdei árak hasonlóan ingadoznak az időben, de lehet, hogy teljesen más a nyers értéke)? Az előbbi forgatókönyv olyan távolságokat jelölne meg, mint Manhattan és Euclidean, míg az utóbbi például a korrelációs távolságot.

Ha ismeri az adatok kovariancia-szerkezetét, akkor valószínűleg a Mahalanobis-távolság a megfelelőbb. A pusztán kategorikus adatokhoz sok javasolt távolság van, például a megfelelő távolság. A vegyes kategorikus és folyamatos Gower távolsága népszerű (bár véleményem szerint elméletileg kissé kielégítő).

Végül véleményem szerint elemzése megerősödni fog, ha bebizonyítja, hogy eredményei és következtetései megbízhatóak a távolságmérő kiválasztása (természetesen a megfelelő távolságok részhalmazán belül). Ha az elemzés drasztikusan megváltozik az alkalmazott távolságmérő finom változásával, további tanulmányokat kell végezni az ellentmondás okának felderítésére.

Megjegyzések

  • Mit értesz correlation distance alatt? 1- r ?
  • @ttnphns igen, a $ 1-r $ a leggyakoribb. ‘ érdemes megjegyezni, hogy egy adott hasonlósági mutató esetén a $ \ rho \ [-1,1] $ értékben van legalább három képlet az eltéréssé való átalakításhoz: (1) Bhattacharyya ‘ s módszer $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‘ s metódus $ 1- \ rho $, és (3) Matusita ‘ s metódus $ \ sqrt {2-2 \ rho} $. Ez egy másik terület, ahol a $ gyakorlatban nem gondolom, hogy a választás általában sokat számít, és ha igen, akkor aggódnék az eredményeim robusztus volta miatt.
  • Utolsó hozzászólásom idézete: Krzanowski (1983). Biometrika, 70 (1), 235-243. Lásd a 236. oldalt.
  • OK, köszönöm. Kérjük, ellenőrizze ezt a választ is . Arra mutat rá, hogy a r pontosan kapcsolódik a standardizált adatokon (összehasonlított profilok) elért euklideszi távolsághoz, amely reflect overall shape of the response az Ön szavaival.
  • Jó poszt. A két mutató valóban összefügg egymással, amint rámutat. Az aktuális beszélgetés pontjainak kontextusba helyezéséhez a legfontosabb különbség az, hogy az euklideszi távolságváltozók nem (általában) központosítottak, hanem a korrelációs képlet a változókat és skálákat központozza szórásuk szerint. Így a korreláció invariáns a lineáris transzformációkkal, míg az euklideszi távolság nem feltétlenül.

Válasz

A megfelelő választás a távolság nem elemi feladat. Ha klaszteranalízist akarunk készíteni egy adathalmazon, akkor különböző eredmények jelenhetnek meg különböző távolságok felhasználásával, ezért nagyon fontos, hogy vigyázzunk, melyik távolságot válasszuk, mert hamisan jó műtárgyat készíthetünk, amely jól megragadja a változékonyságot, de valójában nincs értelme a problémánknak.

Az euklideszi távolság megfelelő, ha folyamatos numerikus változóim vannak, és Az abszolút távolságokat szeretném tükrözni.Ez a távolság minden változót figyelembe vesz, és nem távolítja el az elbocsátásokat, így ha három változóm lenne, amelyek ugyanazt magyarázzák (összefüggésben vannak), akkor ezt a hatást hárommal súlyoznám. Ráadásul ez a távolság nem skálainvariáns, ezért általában a skála használatához korábban skáláznom kell.
Példa ökológiára: Számos helyről különböző megfigyelések vannak, amelyekből a szakemberek néhány mikrobiológiai, fizikai mintát vettek és kémiai tényezők. Mintákat akarunk találni az ökoszisztémákban. Ezeknek a tényezőknek magas a korrelációja, de tudjuk, hogy mindenki releváns, ezért nem akarjuk eltávolítani ezeket az elbocsátásokat. Az euklideszi távolságot méretezett adatokkal használjuk az egységek hatásának elkerülése érdekében.

A Mahalanobis távolság akkor megfelelő, ha folyamatos numerikus változóim vannak, és abszolút távolságokat szeretnék tükrözni, de a redundanciákat el akarjuk távolítani. Ha ismétlődő változóink vannak, akkor ismétlődő hatása megszűnik.

A Hellinger , fajprofil és Az akkord távolsága megfelelő, ha a változók közötti különbségekre szeretnénk helyezni a hangsúlyt , amikor meg akarjuk különböztetni a profilokat. Ezek a távolságok az egyes megfigyelések összmennyisége szerint súlyozódnak oly módon, hogy a távolságok kicsiek, ha változónként változóak, az egyének hasonlóbbak, bár abszolút nagyságrendjükben nagyon eltérő volt. Vigyázz! Ezek a távolságok nagyon jól tükrözik a profilok közötti különbséget, de elvesztették a nagyságrendű hatást. Nagyon hasznosak lehetnek, ha különböző mintanagyságokkal rendelkezünk.
Példa ökológiára: Sok ország faunáját szeretnénk tanulmányozni, és rendelkezünk egy adatmátrixgal a haslábúak leltáráról (mintavételi helyek sorokban és fajnevekben) oszlopokban). A mátrixot az jellemzi, hogy sok nulla és különböző nagyságrendű, mert egyes helyeken vannak bizonyos fajok, másokban pedig más fajok. Használhatnánk a Hellinger-távolságot.

Bray-Curtis meglehetősen hasonló, de ez megfelelőbb, ha meg akarjuk különböztetni a profilokat, és figyelembe vesszük a relatív nagyságrendeket is.

Megjegyzések

  • Köszönjük, hogy különbséget tettek a felhasználási esetek és példák között. Ezt a nagyon hasznosnak találta aero osztályozási modell alkalmazásakor.

Válasz

A manhattani távolságot illetően: Kaufman, Leonard és Peter J. Rousseeuw. “Csoportok keresése az adatokban: Bevezetés a klaszterelemzésbe.” (2005).

A manhattani távolság használata ajánlott azokban a helyzetekben, amikor például 1-es különbség van az első változóban, és a 3 változó a második változóban megegyezik az első változó 2-es és a második 2-es különbségével.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük