Yhteenvedon luominen arvoille, jotka on saatu bimodaalisesta jakaumasta

Minulla on tilasto, joka määrittää arvot tuoteryhmille. Tämä tilasto osoittaa vahvaa bimodaalisuutta (katso kaavio). Analyysia varten yritän määrittää kyseisen tilaston arvon kullekin tuotteelle (muokkaa: suorittaa regressioanalyysi, jossa tuotteet ovat havaintoja). Tämä on suoraviivaista, kun tuote kuuluu vain yhteen luokkaan. Mutta siitä tulee vaikeaa, kun tuotteille määritetään useampi kuin yksi luokka. Koska tilastotiedot ovat kaksimodaaliset, kaikkien tuoteryhmien arvojen keskiarvon ottaminen on merkityksetöntä. Olen utelias, jos on mahdollista saada tällainen yhteenvetotilasto?

tiheyspiirros

Kysymykseni sisältää kaksi aiheeseen liittyvää osaa :

a) Nopea haku antoi minulle ajatuksen, että multimodaalisuutta voidaan arvioida muutamalla tavalla (Ashmanin D, kaksimuotoisuusindeksi , bimodaalisuuskerroin), mutta ei suoraviivaista tapaa tiivistää useita arvoja, jotka on saatu bimodaalisesta jakaumasta.Mutta olen utelias, jos unohdin jotain? Luulen, että käsittelevän asian osalta käytän kohdassa b kuvattua lähestymistapaa Tulevaisuudessa tietäisin mielelläni, mitä on mahdollista tehdä tällaisessa tapauksessa tiivistääksesi tämäntyyppiset tiedot?

b) Lähestymistavani, jota harkitsen tällä hetkellä, on muuttaa tilastoni kolmeksi kategoriseksi yhdet: yksi arvoille, jotka ovat lähellä nollaa, yksi arvoille noin 10 ja lopuksi toinen arvoille noin 5. Sitten laskisin jokaiselle tuotteelle, kuinka monta kertaa luokat, joihin se kuuluu, on lueteltu kullakin alueella. s on järkevää minulle teoreettisesti, mutta ihmettelen, onko puuttuva tilastollinen kaatu? (Tämä lähestymistapa näyttää olevan (hyvin) löyhästi sidoksissa täällä hyväksyttyyn lähestymistapaan, jossa tarkastellaan jakauman jakamista kahteen populaatioon.)

  • Se riippuu tavoitteestasi, mutta ehdotan ehdottomasti sekamallin löytämistä kahteen tilaan vastaavasta jakaumasta. En ' en ole varma, mitä tarkoitat " yrittäen määrittää tälle tilastolle arvon jokaiselle tuotteelle " ?
  • Vaikuttaa siltä, että olet unohtanut esittää kaavion tiedoistasi.
  • @AdamO Minkä tyyppisen kaavion tiedoista haluaisit haluaa nähdä? Hajontakaavio? Jos ei, kerro minulle, mikä olisi hyödyllistä, ja lisätään sen.
  • @jerad Mitä tarkoitan ", määritä kyseisen tilaston arvo kullekin tuotteelle " (korjasin myös viestin tekstin) on, että haluan käyttää sitä muuttujana regressiomallissa, jossa tuotteet ovat havaintoja. Siksi haluan löytää yhteenvetoarvon tuotteille, joilla on useita luokkia.
  • Valitettavasti tiheyskaavio ei latautunut ' t kun katselin sitä. edellisellä selaimellani.

Vastaa

Koska tilasto on kaksimuotoinen, kaikkien tuoteryhmien arvojen keskiarvon ottaminen on merkityksetöntä.

En usko, että tämä on välttämättä totta. Esimerkiksi , rintasyöpäriski on hyvin kerrostunut geneettisten markkereiden perusteella korkeaan ja matalaan riskiin. Kun et tiedä mikä geneettinen koodisi on, on järkevää ilmoittaa keskiarvo.

Muuttujan leikkausten luominen liittyy siihen liittyvä ongelma raja-arvojen mielivaltaiseen valintaan. Tämä aiheuttaa jonkin verran ennakkoarvoa tilojen arvioinnissa seoksen normaalijakaumien tullessa. Vaihtoehtoinen lähestymistapa on EM-algoritmi, jossa voit samanaikaisesti arvioida ”korkea” tai ”matala” ryhmämäärityksen seosjakaumassa ja laskea CI: t keskiarvolle ja sen vakiovirhe kullekin ryhmälle. R ovat tässä asiakirjassa .

Kommentit

  • Jos ymmärrän sinut oikein , mitä EM-algoritmi antaisi minun tehdä, on pystyä kertomaan, kuuluuko arvo ensimmäiseen vai toiseen unimodaaliseen jakaumaan ja millä todennäköisyydellä?
  • Kyllä EM toimii iteroimalla estimoimalla ryhmään kuulumisen indikaattori ja keskiarvo kunkin ryhmän välillä.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *