Jakou vzdálenost použít? např. manhattan, euclidean, Bray-Curtis atd.

Nejsem komunitní ekolog, ale dnes pracuji na ekologických datech komunity.

Co jsem nemohl pochopit, kromě matematiky těchto vzdáleností, jsou kritéria pro každou vzdálenost, která se má použít, a v jakých situacích ji lze použít. Například, co použít s údaji o počtu? Jak převést sklon úhel mezi dvěma místy na vzdálenost? Nebo teplota nebo srážky na dvou místech? Jaké jsou předpoklady pro každou vzdálenost a kdy to dává smysl?

Komentáře

  • Spolehlivým způsobem, jak porozumět metrik vzdálenosti, jejich předpokladům, významu a použitelnosti, je meditovat o jejich vzorcích. Víte, srovnávací anatomie umožnila předpovědět, jak různá zvířata žijí a chovají se. Také si přečtěte knihy / články o metrikách vzdálenosti .
  • Poznámka: Bray – Curtis není vzdálenost, ale odlišnost.

Odpověď

Ve většině případů bohužel na vaši otázku neexistuje jednoznačná odpověď. To znamená, že pro každou danou aplikaci existuje určitě mnoho metrik vzdálenosti, které přinesou podobné a přesné odpovědi. Vzhledem k tomu, že se aktivně používají desítky a pravděpodobně stovky platných metrik vzdálenosti, představa, že můžete najít „správnou“ vzdálenost, není produktivním způsobem, jak uvažovat o problému výběru vhodné metriky vzdálenosti.

Místo toho bych se zaměřil na to, aby nevybral nesprávnou metriku vzdálenosti. Chcete, aby vaše vzdálenost odrážela „absolutní velikost“ (například máte zájem o použití vzdálenosti k identifikaci akcií, které mají podobné střední hodnoty), nebo aby odrážela celkový tvar reakce (např. Ceny akcií, které v průběhu času podobně kolísají, ale mohou mít zcela odlišné hrubé hodnoty)? První scénář by označoval vzdálenosti jako Manhattan a Euclidean, zatímco druhý by označoval například korelační vzdálenost.

Pokud znáte kovarianční strukturu svých dat, pak je pravděpodobně vhodnější Mahalanobisova vzdálenost. Pro čistě kategorická data existuje mnoho navrhovaných vzdáleností, například odpovídající vzdálenost. Pro smíšené kategorické a kontinuální Gowerovy vzdálenosti je populární (i když podle mého názoru poněkud teoreticky neuspokojivý).

Nakonec podle mého názoru bude vaše analýza posílena, pokud prokážete, že vaše výsledky a závěry jsou robustní volba metriky vzdálenosti (samozřejmě v rámci podmnožiny vhodných vzdáleností). Pokud se vaše analýza drasticky změní s jemnými změnami použité metriky vzdálenosti, měla by být provedena další studie, aby se zjistil důvod nekonzistence.

Komentáře

  • Co myslíte slovem correlation distance? 1- r ?
  • @ttnphns ano, $ 1-r $ je nejběžnější. ‚ stojí za zmínku, že pro danou metriku podobnosti $ \ rho \ in [-1,1] $ tam jsou alespoň tři vzorce pro převod na odlišnost: (1) Bhattacharyya ‚ s metoda $ cos ^ {- 1} (\ rho) $, (2) Kolmogorov ‚ s metoda $ 1- \ rho $ a (3) Matusita ‚ s metoda $ \ sqrt {2-2 \ rho} $. Toto je další oblast, kde si v praxi $ $ ‚ nemyslím, že na výběru obvykle hodně záleží, a pokud ano, byl bych znepokojen robustností mých výsledků.
  • Citace k mé poslední poznámce: Krzanowski (1983). Biometrika, 70 (1), 235-243. Viz strana 236.
  • Dobře, děkuji. Zkontrolujte také tuto odpověď . Poukazuje na skutečnost, že r přesně souvisí s euklidovskou vzdáleností získanou ze standardizovaných dat (porovnávaných profilů), které reflect overall shape of the response podle vašich slov.
  • Dobrý příspěvek. Jak zdůrazňujete, tyto dvě metriky skutečně souvisejí. Pro kontextualizaci vašich bodů do aktuální diskuse je klíčovým rozdílem to, že v euklidovských vzdálenostních proměnných nejsou (obvykle) vystředěny, ale korelační vzorec vycentruje proměnné a stupnice podle jejich standardní odchylky. Korelace je tedy pro lineární transformace neměnná, zatímco euklidovská vzdálenost nemusí být nutně.

Odpovědět

Výběr správného vzdálenost není základní úkol. Když chceme provést klastrovou analýzu na datové sadě, mohly by se objevit různé výsledky s použitím různých vzdáleností, takže je velmi důležité dávat pozor na to, jakou vzdálenost zvolit, protože můžeme vytvořit falešně dobrý artefakt, který dobře zachycuje variabilitu, ale vlastně v našem problému nemá smysl.

Vzdálenost euklidovská je vhodná, když mám spojité číselné proměnné a Chci odrážet absolutní vzdálenosti.Tato vzdálenost bere v úvahu každou proměnnou a neodstraňuje nadbytečnost, takže kdybych měl tři proměnné, které vysvětlují totéž (jsou korelovány), zvážil bych tento efekt třemi. Tato vzdálenost navíc není neměnná podle měřítka, takže pro její použití musím obecně změnit měřítko.
Příklad ekologie: Máme různá pozorování z mnoha lokalit, z nichž odborníci odebrali vzorky některých mikrobiologických, fyzikálních a chemické faktory. Chceme najít vzory v ekosystémech. Tyto faktory mají vysokou korelaci, ale víme, že každý je relevantní, takže nechceme tato nadbytečnost odstraňovat. Abychom se vyhnuli účinku jednotek, používáme euklidovskou vzdálenost s měřítkem dat.

Mahalanobis vzdálenost je vhodná, když mám spojité číselné proměnné a chci odrážet absolutní vzdálenosti, ale chceme odstranit nadbytečnost. Pokud máme opakované proměnné, jejich opakující se efekt zmizí.

Rodina Hellinger , Profil druhů a vzdálenost akordů jsou vhodné, pokud chceme zdůraznit rozdíly mezi proměnnými , když chceme odlišit profily. Tyto vzdálenosti váží podle celkového množství každého pozorování, a to takovým způsobem, že vzdálenosti jsou malé, když jsou proměnné podle proměnných jednotlivci podobnější, i když v absolutních velikostech byly velmi odlišné. Dávej si pozor! Tyto vzdálenosti velmi dobře odrážejí rozdíl mezi profily, ale ztratily efekt velikosti. Mohly by být velmi užitečné, když máme různé velikosti vzorků.
Příklad ekologie: Chceme studovat faunu mnoha zemí a máme datovou matici soupisu plže (umístění vzorků v řádcích a názvy druhů) ve sloupcích). Matice se vyznačuje tím, že má mnoho nul a různých velikostí, protože některé lokality mají nějaký druh a jiné mají jiné druhy. Mohli bychom použít vzdálenost Hellinger.

Bray-Curtis je docela podobný, ale je vhodnější, když chceme odlišit profily a také vzít v úvahu relativní velikosti.

Komentáře

  • Děkujeme vám za rozlišení případů a příkladů použití. Tato velmi shledala užitečnou v aplikaci na model klasifikace aero.

Odpovědět

Pokud jde o vzdálenost na Manhattanu: Kaufman, Leonard a Peter J. Rousseeuw. „Hledání skupin v datech: Úvod do klastrové analýzy.“ (2005).

Použití manhattanské vzdálenosti se doporučuje v situacích, kdy je například rozdíl 1 v první proměnné, a 3 ve druhé proměnné je stejný jako rozdíl 2 v první proměnné a 2 ve druhé.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *