Welke afstand te gebruiken? bijv. manhattan, euclidean, Bray-Curtis, enz.

Ik ben geen gemeenschapsecoloog, maar tegenwoordig werk ik aan ecologische gegevens van de gemeenschap.

Wat ik niet kon begrijpen, afgezien van de wiskunde van deze afstanden, zijn de criteria die voor elke afstand moeten worden gebruikt en in welke situaties deze kan worden toegepast. Wat moet ik bijvoorbeeld gebruiken met telgegevens? hoek tussen twee locaties op een afstand? Of de temperatuur of regen op twee locaties? Wat zijn de aannames voor elke afstand en wanneer is dit logisch?

Opmerkingen

  • De betrouwbare manier om afstandsstatistieken, hun aannames, betekenis en toepasbaarheid te begrijpen, is door te mediteren over hun formules. Weet je, vergelijkende anatomie heeft het mogelijk gemaakt om te voorspellen hoe verschillende dieren leven en zich gedragen. Lees ook boeken / artikelen over afstandsstatistieken .
  • Pedante opmerking: Bray – Curtis is geen afstand maar een ongelijkheid.

Antwoord

Helaas is er in de meeste situaties geen duidelijk antwoord op uw vraag. Dat wil zeggen dat er voor een bepaalde toepassing zeker veel afstandsmetingen zijn die vergelijkbare en nauwkeurige antwoorden zullen opleveren. Aangezien er tientallen, en waarschijnlijk honderden, geldige afstandsmetrieken actief worden gebruikt, is het idee dat u de juiste afstand kunt vinden geen productieve manier om na te denken over het probleem van het selecteren van een geschikte afstandsmetriek.

Ik zou me in plaats daarvan concentreren op niet het kiezen van de verkeerde afstandsmetriek. Wilt u dat uw afstand de absolute omvang weerspiegelt (u bent bijvoorbeeld geïnteresseerd in het gebruik van de afstand om aandelen met vergelijkbare gemiddelde waarden te identificeren) of om de algemene vorm van de respons weer te geven (bijv. Aandelenkoersen die in de loop van de tijd op vergelijkbare wijze fluctueren, maar kunnen totaal verschillende ruwe waarden hebben)? Het eerste scenario zou afstanden aangeven zoals Manhattan en Euclidean, terwijl het laatste bijvoorbeeld de correlatieafstand zou aangeven.

Als u de covariantiestructuur van uw gegevens kent, is Mahalanobis-afstand waarschijnlijk geschikter. Voor puur categorische gegevens zijn er veel voorgestelde afstanden, bijvoorbeeld overeenkomende afstand. Voor gemengde categorische en continue Gowers afstand is populair (hoewel naar mijn mening enigszins theoretisch onbevredigend).

Ten slotte zal naar mijn mening uw analyse worden versterkt als u aantoont dat uw resultaten en conclusies robuust zijn voor de keuze van de afstandsmetriek (uiteraard binnen de subset van geschikte afstanden). Als uw analyse drastisch verandert met subtiele veranderingen in de gebruikte afstandsmetriek, moet nader onderzoek worden gedaan om de reden voor de inconsistentie te achterhalen.

Opmerkingen

  • Wat bedoel je met correlation distance? 1- r ?
  • @ttnphns ja, $ 1-r $ komt het meest voor. Het ‘ is het vermelden waard dat $ \ rho \ in [-1,1] $ daar voor een gegeven overeenkomststatistiek zijn ten minste drie formules voor het converteren naar een ongelijkheid: (1) Bhattacharyya ‘ s methode $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‘ s methode $ 1- \ rho $, en (3) Matusita ‘ s methode $ \ sqrt {2-2 \ rho} $. Dit is een ander gebied waar $ I in de praktijk $ I niet ‘ niet denkt dat de keuze er gewoonlijk toe doet, en als dat zo was, zou ik me zorgen maken over de robuustheid van mijn resultaten.
  • Citaat voor mijn laatste opmerking: Krzanowski (1983). Biometrika, 70 (1), 235–243. Zie pagina 236.
  • OK, bedankt. Controleer ook dit antwoord . Het wijst op het feit dat r precies gerelateerd is aan de euclidische afstand die is verkregen op basis van de gestandaardiseerde gegevens (profielen die worden vergeleken), die reflect overall shape of the response in uw woorden.
  • Goed bericht. De twee statistieken zijn inderdaad gerelateerd, zoals u aangeeft. Om uw punten te contextualiseren met de huidige discussie, is het belangrijkste verschil dat in Euclidische afstandsvariabelen niet (meestal) gecentreerd zijn, maar dat de correlatieformule variabelen en schalen centreert op basis van hun standaarddeviatie. Correlatie is dus onveranderlijk voor lineaire transformaties, terwijl Euclidische afstand niet noodzakelijk is.

Antwoord

Het juiste kiezen afstand is geen elementaire taak. Wanneer we een clusteranalyse willen maken op een dataset, kunnen verschillende resultaten verschijnen met verschillende afstanden, dus het is erg belangrijk om voorzichtig te zijn in welke afstand je moet kiezen, omdat we een vals goed artefact kunnen maken dat de variabiliteit goed vastlegt, maar eigenlijk zonder zin in ons probleem.

De Euclidische afstand is geschikt als ik continue numerieke variabelen heb en Ik wil absolute afstanden weergeven.Deze afstand houdt rekening met elke variabele en verwijdert geen overtolligheden, dus als ik drie variabelen had die hetzelfde verklaren (gecorreleerd zijn), zou ik dit effect met drie wegen. Bovendien is deze afstand niet schaal-invariant, dus over het algemeen moet ik eerst schalen om de afstand te gebruiken.
Voorbeeld ecologie: We hebben verschillende waarnemingen van veel plaatsen, waarvan de experts monsters hebben genomen van enkele microbiologische, fysieke en chemische factoren. We willen patronen vinden in ecosystemen. Deze factoren hebben een hoge correlatie, maar we weten dat iedereen relevant is, dus we willen deze overtolligheden niet verwijderen. We gebruiken de Euclidische afstand met geschaalde gegevens om het effect van eenheden te vermijden.

De Mahalanobis afstand is geschikt als ik continue numerieke variabelen heb en ik absolute afstanden wil weergeven, maar we willen overtolligheden verwijderen. Als we variabelen hebben herhaald, zal hun herhalende effect verdwijnen.

De familie Hellinger , Soortprofiel en Akkoordafstand zijn geschikt wanneer we de nadruk willen leggen op verschillen tussen variabelen , wanneer we profielen willen differentiëren. Deze afstanden wegen door de totale hoeveelheden van elke waarneming, op een zodanige manier dat de afstanden klein zijn wanneer ze variabel per variabele verschillen, de individuen meer op elkaar lijken, hoewel in absolute grootheden zeer verschillend was. Kijk uit! Deze afstanden weerspiegelen heel goed het verschil tussen profielen, maar verloren het magnitude-effect. Ze kunnen erg handig zijn als we verschillende steekproeven hebben.
Voorbeeld ecologie: We willen de fauna van veel landen bestuderen en we hebben een datamatrix van een inventaris van de buikpotige (bemonsteringslocaties in rijen en soortnamen in kolommen). De matrix wordt gekenmerkt door veel nullen en verschillende grootheden, omdat sommige plaatsen sommige soorten hebben en andere andere soorten. We zouden de Hellinger-afstand kunnen gebruiken.

Bray-Curtis lijkt veel op geschikter als we profielen willen differentiëren en ook rekening willen houden met relatieve magnitudes.

Opmerkingen

  • Bedankt voor het onderscheiden van gebruiksscenarios en voorbeelden. Vond dit zeer nuttig bij toepassing op een aero-classificatiemodel.

Answer

Over de afstand in Manhattan: Kaufman, Leonard en Peter J. Rousseeuw. “Groepen zoeken in gegevens: een inleiding tot clusteranalyse.” (2005).

Het gebruik van de Manhattan-afstand wordt geadviseerd in die situaties waar bijvoorbeeld een verschil van 1 in de eerste variabele, en van 3 in de tweede variabele is hetzelfde als een verschil van 2 in de eerste variabele en van 2 in de tweede.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *