Mám statistiku, která přiřazuje hodnoty kategoriím produktů. Tato statistika ukazuje silnou bimodalitu (viz graf). Pro analýzu se snažím přiřadit hodnotu této statistiky každému produktu (upravit: provést regresní analýzu, ve které jsou produkty pozorování). To je jednoduché, pokud jsou produkty pouze v jedné kategorii. Je však obtížné, když jsou výrobky přiřazeny do více než jedné kategorie. Vzhledem k tomu, že statistika je bimodální, nemá průměr z hodnot pro všechny kategorie produktu smysl. Zajímalo by mě, jestli existuje způsob, jak získat tento druh souhrnných statistik?
Moje otázka má dvě související části :
a) Rychlé hledání mi dalo představu, že existuje několik způsobů hodnocení multimodality (Ashmanova D, index bimodality , koeficient bimodality), ale žádný přímý způsob, jak shrnout řadu hodnot získaných z bimodální distribuce. Ale jsem zvědavý, jestli mi něco uniklo? Pro danou otázku si myslím, že přijmu přístup popsaný vb, ale pro do budoucna bych rád věděl, co je možné v takovém případě udělat pro shrnutí tohoto typu dat?
b) Přístup, který v současné době zvažuji, je přeměnit moji statistiku na tři kategorické ones: jeden pro hodnoty blízké nule, jeden pro hodnoty kolem 10 a nakonec jeden pro hodnoty kolem 5. Pak pro každý produkt bych spočítal, kolikrát jsou kategorie, do kterých patří, uvedeny v každém rozsahu. S mi to teoreticky dává smysl, ale zajímalo by mě, jestli mi chybí nějaká statistická úskalí? (Tento přístup se zdá (velmi) volně spojený s přístupem přijatým zde , který zkoumá rozdělení distribuce na dvě populace).
Komentáře
- Záleží na tom, jaký je váš cíl, ale určitě bych doporučil použít model směsi k vyhledání dvou distribucí, které odpovídají těmto dvěma režimům. ' si nejsem jistý, co máte na mysli " pokusem přiřadit každému produktu hodnotu této statistiky " ?
- Zdá se, že jste zapomněli předložit graf svých dat.
- @AdamO Jaký typ grafu dat byste chtěli rád vidím? Scatterplot? Pokud ne, řekněte mi, co by bylo užitečné, a přidám to.
- @jerad Co mám na mysli tím, že " přiřadíte každému produktu hodnotu této statistiky " (také jsem opravil text příspěvku) spočívá v tom, že jej chci použít jako proměnnou v regresním modelu, ve kterém jsou produkty pozorování. To je důvod, proč chci najít souhrnnou hodnotu pro produkty, které mají více kategorií.
- Je nám líto, graf hustoty se při prohlížení nenačítal ' v mém předchozím prohlížeči.
Odpověď
Protože statistika je bimodální, přičemž průměr hodnot pro všechny kategorie produktu nemá smysl.
Nemyslím si, že je to nutně pravda. Například , riziko rakoviny prsu je vysoce stratifikované na vysoké a nízké riziko na základě genetických markerů. Když nevíte, jaký je váš genetický kód, stále má smysl uvádět průměr.
Vytváření řezů proměnné má související problém s libovolnou volbou mezních hodnot. To způsobí určité zkreslení v odhadu režimů, které vycházejí z normálního rozdělení směsi. Alternativním přístupem je algoritmus EM, kde můžete současně odhadnout přiřazení skupiny „vysoká“ versus „nízká“ v distribuci směsi a vypočítat CI pro střední hodnotu a její standardní chybu pro každou skupinu. Podrobnosti o tom v R jsou v tomto dokumentu .
Komentáře
- Pokud vám dobře rozumím , co by mi algoritmus EM dovolil udělat, je být schopen zjistit, zda hodnota patří do prvního nebo druhého unimodálního rozdělení a s jakou pravděpodobností?
- Ano EM funguje tak, že iterativně odhaduje indikátor členství ve skupině a průměr mezi každou skupinou.