Mitä etäisyyttä kannattaa käyttää? esim. manhattan, euklidinen, Bray-Curtis jne.

En ole yhteisöekologi, mutta työskentelen näinä päivinä yhteisön ekologiatietojen parissa.

Mitä en voinut ymmärtää, lukuun ottamatta näiden etäisyyksien matematiikkaa, ovat kriteerit jokaiselle käytettävälle etäisyydelle ja missä tilanteissa sitä voidaan käyttää. Esimerkiksi, mitä käyttää laskentatiedoilla? Kuinka muuntaa kaltevuus Kahden sijainnin välinen kulma etäisyyteen? Tai lämpötila tai sateet kahdessa paikassa? Mitkä ovat oletukset kullekin etäisyydelle ja milloin sillä on järkeä?

Kommentit

  • Luotettava tapa ymmärtää etäisyystietoja, niiden oletuksia, tarkoitusta ja sovellettavuutta on mietiskellä niiden kaavoja. Tiedät, vertaileva anatomia on antanut ennustaa, kuinka eri eläimet elävät ja käyttäytyvät. Lue myös kirjoja / artikkeleita etäisyystiedoista .
  • Pedanttinen huomautus: Bray – Curtis ei ole etäisyys, vaan eroavuus.

Vastaa

Valitettavasti useimmissa tilanteissa ei ole selkeää vastausta kysymykseesi. Eli missä tahansa sovelluksessa on varmasti monia etäisyystietoja, jotka antavat samanlaisia ja tarkkoja vastauksia. Kun otetaan huomioon, että kelvollisia etäisyysmittauslaitteita käytetään aktiivisesti kymmeniä ja todennäköisesti satoja, ajatus siitä, että löydät oikean etäisyyden, ei ole tuottava tapa ajatella sopivan etäisyystiedon valinnan ongelmaa.

Haluan sen sijaan keskittyä siihen, että en valitse väärä etäisyysmittari. Haluatko, että etäisyytesi heijastaa ”absoluuttista suuruutta” (esimerkiksi olet kiinnostunut käyttämään etäisyyttä tunnistamaan osakkeet, joilla on samanlaiset keskiarvot) vai vastauksen yleistä muotoa (esimerkiksi osakkeiden hinnat, jotka vaihtelevat samalla tavalla ajan myötä, mutta sillä voi olla täysin erilaiset raaka-arvot)? Edellinen skenaario ilmaisi etäisyydet kuten Manhattan ja Euclidean, kun taas jälkimmäinen merkitsisi korrelaatioetäisyyttä, esimerkiksi.

Jos tiedät tietojesi kovarianssirakenteen, Mahalanobiksen etäisyys on todennäköisesti sopivampi. Pelkästään kategoristen tietojen osalta on monia ehdotettuja etäisyyksiä, esimerkiksi vastaava etäisyys. Sekoitetuissa kategorioissa ja jatkuvissa Gowerin etäisyys on suosittu (vaikkakin teoreettisesti tyydyttävä mielestäni).

Lopuksi, mielestäni analyysisi vahvistuu, jos osoitat, että tulokset ja johtopäätökset ovat vankkoja etäisyysmittarin valinta (tietysti sopivien etäisyyksien osajoukossa) .Jos analyysisi muuttuu dramaattisesti käytettyjen etäisyystietojen hienovaraisilla muutoksilla, epätasaisuuden syyn selvittämiseksi tulisi suorittaa lisätutkimuksia.

Kommentit

  • Mitä tarkoitat correlation distance? 1- r ?
  • @ttnphns yep, $ 1-r $ on yleisin. ’ on syytä huomata, että tietyn samankaltaisuustiedon kohdalla $ \ rho \ kohdassa [-1,1] $ on ovat vähintään kolme kaavaa muunnettavaksi erilaisuuteen: (1) Bhattacharyya ’ -menetelmä $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ’ s menetelmä $ 1- \ rho $ ja (3) Matusita ’ s menetelmä $ \ sqrt {2-2 \ rho} $. Tämä on toinen alue, jossa $ -käytännössä $ en usko ’ usko, että valinnalla on yleensä merkitystä, ja jos se tekisi niin, olisin huolissani tulosteni vakaudesta.
  • Viittaus viimeiseen kommenttini: Krzanowski (1983). Biometrika, 70 (1), 235–243. Katso sivu 236.
  • OK, kiitos. Tarkista myös tämä vastaus . Se kiinnittää huomiota siihen, että r liittyy tarkalleen standardoiduilla tiedoilla (verrataan profiileja) saatuun euklidiseen etäisyyteen, joka reflect overall shape of the response sanoillasi.
  • Hyvä viesti. Nämä kaksi mittaria liittyvät todellakin toisiinsa, kuten huomautat. Pisteiden kontekstualisoimiseksi nykyiseen keskusteluun tärkein ero on se, että euklidisissa etäisyysmuuttujissa ei ole (yleensä) keskityksiä, mutta korrelaatiokaava keskittää muuttujat ja asteikot niiden keskihajonnan perusteella. Korrelaatio on siis invariantti lineaarimuunnoksiin, kun taas euklidinen etäisyys ei välttämättä ole.

Vastaa

Oikean valinta etäisyys ei ole perustehtävä. Kun haluamme tehdä klusterianalyysin tietojoukosta, erilaiset tulokset saattavat näkyä käyttämällä eri etäisyyksiä, joten on erittäin tärkeää olla varovainen siitä, mikä etäisyys valita, koska voimme tehdä väärän hyvän artefaktin, joka kerää hyvin vaihtelun, mutta oikeastaan ilman järkeä ongelmallemme.

Euklidinen etäisyys on sopiva, kun minulla on jatkuvia numeerisia muuttujia ja Haluan heijastaa absoluuttisia etäisyyksiä.Tämä etäisyys ottaa huomioon kaikki muuttujat eikä poista irtisanomisia, joten jos minulla olisi kolme muuttujaa, jotka selittävät saman (korreloivat), painotan tämän vaikutuksen kolmella. Lisäksi tämä etäisyys ei ole mittakaavassa invariantti, joten yleensä minun on skaalattava aiemmin, jotta voin käyttää etäisyyttä.
Esimerkki ekologiasta: Meillä on erilaisia havaintoja monista paikoista, joista asiantuntijat ovat ottaneet näytteitä mikrobiologisista, fysikaalisista kemialliset tekijät. Haluamme löytää malleja ekosysteemeistä. Näillä tekijöillä on korkea korrelaatio, mutta tiedämme, että kaikilla on merkitystä, joten emme halua poistaa näitä irtisanomisia. Käytämme Euclidean etäisyyttä skaalattujen tietojen kanssa yksikköjen vaikutusten välttämiseksi.

Mahalanobis etäisyys on sopiva, kun minulla on jatkuvia numeerisia muuttujia ja haluan heijastaa absoluuttisia etäisyyksiä, mutta haluamme poistaa redundanssit. Jos meillä on toistuvia muuttujia, niiden toistuva vaikutus katoaa.

Perhe Hellinger , Lajiprofiili ja Sointuetäisyys ovat sopivia, kun haluamme painottaa muuttujien välisiä eroja , kun haluamme erottaa profiilit. Nämä etäisyydet painottavat kunkin havainnon kokonaismääriä siten, että etäisyydet ovat pieniä, kun muuttuja vaihtelee yksilöt ovat enemmän samanlaisia, vaikka absoluuttisina suuruuksina oli hyvin erilainen. Varo! Nämä etäisyydet heijastavat hyvin profiilien välistä eroa, mutta menettivät suuruusvaikutuksen. Ne voivat olla erittäin hyödyllisiä, kun meillä on erilainen näytekoko.
Esimerkki ekologiasta: Haluamme tutkia monien maiden eläimistöä ja meillä on tietomatriisi astiasta (näytteenottopaikat riveissä ja lajien nimissä) sarakkeissa). Matriisille on ominaista, että sillä on monia nollia ja eri suuruudet, koska joillakin paikkakunnilla on joitain lajeja ja toisilla muita lajeja. Voisimme käyttää Hellingerin etäisyyttä.

Bray-Curtis on melko samanlainen, mutta se on sopivampi, kun haluamme erottaa profiilit ja ottaa huomioon myös suhteelliset suuruudet.

Kommentit

  • Kiitos käyttötapausten ja esimerkkien erottelusta. Piti tätä erittäin hyödyllisenä sovelluksessa aero-luokitusmalliin.

Vastaa

Manhattanin etäisyys: Kaufman, Leonard ja Peter J. Rousseeuw. ”Ryhmien etsiminen tiedoista: Johdanto klusterianalyysiin.” (2005).

Manhattanin etäisyyden käyttöä suositellaan tilanteissa, joissa esimerkiksi ensimmäisen muuttujan ero on 1, ja toisen muuttujan 3 arvo on sama kuin ensimmäisen muuttujan 2 ja toisen toisen ero.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *