Ce distanță să folosești? de exemplu, manhattan, euclidian, Bray-Curtis, etc

Nu sunt un ecologist comunitar, dar în aceste zile lucrez la date ecologice comunitare.

Ceea ce nu aș putea înțelege, în afară de matematica acestor distanțe, este criteriul pentru fiecare distanță de utilizat și în ce situații poate fi aplicat. De exemplu, ce să folosesc cu datele de numărare? Cum se convertește panta unghi între două locații într-o distanță? Sau temperatura sau precipitațiile în două locații? Care sunt ipotezele pentru fiecare distanță și când are sens?

Comentarii

Modul fiabil de a înțelege valorile la distanță, ipotezele, semnificația și aplicabilitatea acestora este de a medita la formulele lor. Știi, anatomia comparativă a permis să prezici modul în care trăiesc și se comportă diferite animale. De asemenea, citește cărți / articole despre valorile la distanță. .
Notă pedantică: Bray – Curtis nu este o distanță, ci o diferență.

Răspuns

Din păcate, în majoritatea situațiilor nu există un răspuns clar la întrebarea dvs. Adică, pentru orice aplicație dată, există cu siguranță multe măsurători la distanță care vor oferi răspunsuri similare și exacte. Având în vedere că există zeci, și probabil sute, de valori valabile la distanță utilizate în mod activ, noțiunea că puteți găsi distanța „corectă” nu este un mod productiv de a vă gândi la problema selectării unei valori corespunzătoare a distanței.

În schimb, m-aș concentra pe nu selectarea valorii distanței greșite . Doriți ca distanța dvs. să reflecte „magnitudinea absolută” (de exemplu, sunteți interesat să utilizați distanța pentru a identifica stocurile care au valori medii similare) sau să reflecte forma generală a răspunsului (de exemplu, prețurile acțiunilor care fluctuează în mod similar în timp, dar poate avea valori brute complet diferite)? Primul scenariu ar indica distanțe precum Manhattan și Euclidean, în timp ce cel din urmă ar indica distanța de corelație, de exemplu.

Dacă cunoașteți structura de covarianță a datelor dvs., atunci distanța Mahalanobis este probabil mai potrivită. Pentru datele pur categorice, există multe distanțe propuse, de exemplu, distanța potrivită. Pentru categorie mixtă și continuă, distanța lui Gower este populară (deși oarecum teoretic nesatisfăcătoare în opinia mea).

În sfârșit, în opinia mea, analiza dvs. va fi consolidată dacă demonstrați că rezultatele și concluziile dvs. sunt robuste pentru alegerea metricei distanței (în cadrul subsetului de distanțe adecvate, desigur). Dacă analiza dvs. se schimbă drastic odată cu modificări subtile ale metricei distanței utilizate, ar trebui întreprinse studii suplimentare pentru a identifica motivul neconcordanței.

Comentarii

Ce vrei să spui prin correlation distance? 1- r ?
@ttnphns da, $ 1-r $ este cel mai frecvent. Este ‘ demn de remarcat faptul că pentru o valoare similară dată \ \ rho \ în [-1,1] $ acolo sunt cel puțin trei formule pentru conversia la o diferențiere: (1) Bhattacharyya ‘ s method $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‘ metoda $ 1- \ rho $ și (3) Matusita ‘ metoda $ \ sqrt {2-2 \ rho} $. Acesta este un alt domeniu în care, în $ practice $, nu cred că ‘ cred că alegerea contează de obicei foarte mult și, dacă ar fi așa, aș fi îngrijorat de soliditatea rezultatelor mele.
Citat pentru ultimul meu comentariu: Krzanowski (1983). Biometrika, 70 (1), 235-243. Vezi pagina 236.
OK, mulțumesc. Verificați și acest răspuns , vă rugăm. Aceasta indică faptul că r este exact legat de distanța euclidiană obținută pe datele standardizate (profilurile sunt comparate), care reflect overall shape of the response în cuvintele tale.
Postare bună. Cele două valori sunt într-adevăr legate, după cum ați subliniat. Pentru a vă contextualiza punctele la discuția actuală, diferența cheie este că variabilele distanței euclidiene nu sunt (de obicei) centrate, dar formula de corelație centrează variabilele și scalele prin abaterea lor standard. Astfel, corelația este invariantă la transformările liniare, în timp ce distanța euclidiană nu este neapărat.

Răspuns

Alegerea corectă distanța nu este o sarcină elementară. Când vrem să facem o analiză cluster pe un set de date, pot apărea rezultate diferite folosind distanțe diferite, deci este foarte important să fim atenți în ce distanță să alegem, deoarece putem face un artefact fals bun care să capteze variabilitatea, dar de fapt fără sens în problema noastră.

Distanța euclidiană este potrivită atunci când am variabile numerice continue și Vreau să reflectez distanțele absolute.Această distanță ia în considerare fiecare variabilă și nu elimină redundanțele, așa că dacă aș avea trei variabile care explică același lucru (sunt corelate), aș cântări acest efect cu trei. Mai mult, această distanță nu este invariantă la scară, așa că, în general, trebuie să scalez anterior pentru a folosi distanța.
Exemplu de ecologie: Avem observații diferite din multe localități, dintre care experții au prelevat probe din unele microbiologice, și factori chimici. Vrem să găsim tipare în ecosisteme. Acești factori au o corelație ridicată, dar știm că toată lumea este relevantă, deci nu dorim să eliminăm aceste concedieri. Utilizăm distanța euclidiană cu date la scară pentru a evita efectul unităților.

Mahalanobis distanță este adecvată atunci când am variabile numerice continue și vreau să reflectez distanțele absolute, dar vrem să eliminăm redundanțele. Dacă avem variabile repetate, efectul lor repetitiv va dispărea.

Familia Hellinger , Profil specie și Distanța acordului sunt adecvate atunci când dorim să punem accent pe diferențele dintre variabile , când vrem să diferențiem profilurile. Aceste distanțe sunt ponderate în funcție de cantitățile totale ale fiecărei observații, în așa fel încât distanțele sunt mici atunci când variabil cu variabil, indivizii sunt mai asemănători, deși în magnitudini absolute a fost foarte diferit. Ai grija! Aceste distanțe reflectă foarte bine diferența dintre profiluri, dar au pierdut efectul de magnitudine. Acestea ar putea fi foarte utile atunci când avem diferite dimensiuni ale eșantionului.
Exemplu de ecologie: dorim să studiem fauna din multe țări și avem o matrice de date a unui inventar al gastropodului (locații de eșantionare în rânduri și nume de specii în coloane). Matricea se caracterizează prin faptul că are multe zerouri și magnitudini diferite, deoarece unele localități au unele specii, iar altele au alte specii. Am putea folosi distanța Hellinger.

Bray-Curtis este destul de similar, dar este mai adecvat atunci când vrem să diferențiem profilurile și să luăm în considerare și mărimile relative.

Comentarii

Vă mulțumim pentru diferențierea cazurilor de utilizare și a exemplelor. Găsit acest lucru foarte util în aplicarea la un model de clasificare aerodinamică.

Răspuns

În ceea ce privește distanța din Manhattan: Kaufman, Leonard și Peter J. Rousseeuw. „Găsirea grupurilor în date: o introducere în analiza clusterelor.” (2005).

Utilizarea distanței Manhattan este recomandată în acele situații în care, de exemplu, o diferență de 1 în prima variabilă, și de 3 în a doua variabilă este aceeași cu o diferență de 2 în prima variabilă și de 2 în a doua variabilă.

Comentarii

Răspuns

Comentarii

Răspuns

Comentarii

Răspuns

Lasă un răspuns Anulează răspunsul