Összefoglaló készítése a bimodális eloszlásból származó értékekhez

Van olyan statisztikám, amely termékkategóriákhoz rendel értékeket. Ez a statisztika erős bimodalitást mutat (lásd a grafikont). Elemzés céljából megpróbálok minden termékhez hozzárendelni egy adott statisztikai értéket (szerkesztés: regresszióanalízis végrehajtása, amelyben a termékek megfigyelések). Ez egyértelmű, ha a termékek csak egy kategóriába tartoznak. De nehézzé válik, ha a termékeket egynél több kategóriába sorolják. Mivel a statisztika bimodális, értelmetlen az összes termékkategória értékeinek átlaga. Kíváncsi vagyok, hogy lehet-e ilyen összefoglaló statisztikákat szerezni?

sűrűségdiagram

Kérdésem két kapcsolódó részből áll :

a) A gyors keresés azt az ötletet adta, hogy a multimodalitás értékelésének néhány módja van (Ashman D, Bimodality index , bimodalitási együttható), de nincs egyszerű módszer összefoglalni a bimodális eloszlásból levont számos értéket. De kíváncsi vagyok, ha elmulasztottam valamit? A kérdésben azt gondolom, hogy elfogadom a b) pontban leírt megközelítést, de örömmel tudnám, mit tehetünk ilyen esetben az ilyen típusú adatok összefoglalása érdekében?

b) Az a megközelítés, amelyet jelenleg fontolóra veszek, az, hogy a statisztikámat három kategorikusra változtatom egyet: egyet a nullához közeli értékekre, egyet a 10 körüli értékekre, végül egyet az 5 körüli értékekre. Ezután minden terméknél megszámolnám, hogy az egyes tartományokban hányszor szerepelnek azok a kategóriák, amelyekhez tartozik. s elméletileg van értelme számomra, de kíváncsi vagyok, van-e valamilyen statisztikai buktató, amit hiányolok? (Úgy tűnik, hogy ez a megközelítés (nagyon) lazán kapcsolódik az itt elfogadott megközelítéshez, amely az eloszlás két populációra történő felosztását vizsgálja.)

Megjegyzések

  • Attól függ, hogy mi a célja, de mindenképpen javaslom egy keverék modell használatát, hogy megtaláljuk a két eloszlásnak megfelelő módszert. ' nem vagyok biztos benne, mit értesz " alatt, amikor megpróbálok minden termékhez értéket rendelni az adott statisztikához " ?
  • Úgy tűnik, elfelejtette bemutatni az adatok grafikonját.
  • @AdamO Milyen típusú grafikont szeretne az adatokból szeretnél látni? Szétszórt sáv? Ha nem, mondja el, mi lenne hasznos, és hozzáadom.
  • @jerad Mit értek " alatt, rendeljen minden termékhez egy értéket ennek a statisztikának " (a bejegyzés szövegét is kijavítottam), hogy változóként szeretném használni egy olyan regressziós modellben, amelyben a szorzók a megfigyelések. Ezért szeretnék összefoglaló értéket találni azoknak a termékeknek, amelyek több kategóriával rendelkeznek.
  • Sajnálom, a sűrűségdiagram nem töltődött be ', amikor azt néztem. előző böngészőmön.

Válasz

Mivel a a statisztika bimodális, a termék összes kategóriájának értékeinek átlaga értelmetlen.

Nem hiszem, hogy ez feltétlenül igaz. Például , az emlőrák kockázata a genetikai markerek alapján erősen alacsony vagy alacsony kockázatúvá van rétegezve. Ha nem tudja, mi a genetikai kódja, akkor is van értelme jelenteni az átlagot.

A változó vágásának létrehozása az elválasztások tetszőleges megválasztásával járó probléma. Ez némi torzítást fog okozni a módok becslésében, mivel a keverék normál eloszlásából származik. Alternatív megközelítés az EM algoritmus, ahol egyszerre lehet megbecsülni a keverékeloszlásban a “magas” és az “alacsony” csoport hozzárendelését, és kiszámolni az egyes csoportok átlagának és standard hibájának CI-jét. Ennek részletei: R szerepel ebben a dokumentumban .

Megjegyzések

  • Ha jól értem , mit engedne megtenni az EM algoritmus, hogy meg tudjam mondani, hogy egy érték az első vagy a második unimodális eloszláshoz tartozik-e és milyen valószínűséggel?
  • Igen, az EM úgy működik, hogy a csoporttagsági mutatót iteratív módon becsüli meg és az egyes csoportok közötti átlag.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük