Å bygge et sammendrag for verdier hentet fra en bimodal fordeling

Jeg har en statistikk som tildeler verdier til produktkategorier. Denne statistikken viser sterk bimodalitet (se graf). For analyse prøver jeg å tilordne en verdi av den statistikken til hvert produkt (rediger: å utføre en regresjonsanalyse der produktene er observasjoner). Dette er greit når produktet bare er i en kategori. Men det blir vanskelig når produkter tildeles mer enn en kategori. Siden statistikken er bimodal, er det meningsløst å ta gjennomsnittet av verdiene for alle kategorier av et produkt. Jeg er nysgjerrig på om det er en måte å få denne typen sammendragsstatistikk?

tetthetsplott

Spørsmålet mitt har to relaterte deler :

a) Et raskt søk ga meg ideen om at det er noen måter å vurdere multimodality (Ashmans D, Bimodality index , bimodalitetskoeffisient), men ingen rettferdig måte å oppsummere en rekke verdier hentet fra en bimodal fordeling. Men jeg er nysgjerrig på at jeg savnet noe? fremtid, vil jeg gjerne vite hva som er mulig å gjøre i et slikt tilfelle for å oppsummere den typen data?

b) Tilnærmingen jeg vurderer å bruke for øyeblikket er å gjøre statistikken min til tre kategoriske en: en for verdiene nær null, en for verdiene rundt 10, og til slutt en for verdiene rundt 5. Deretter vil jeg telle antall ganger kategoriene det tilhører er oppført i hvert område for hvert produkt. s gir meg teoretisk mening, men jeg lurer på om det er noen statistisk fallgruve jeg mangler? (Denne tilnærmingen virker (veldig) løst knyttet til den adopterte her , som ser på å dele fordelingen i to populasjoner).

Kommentarer

  • Det avhenger av hva målet ditt er, men jeg vil absolutt foreslå å bruke en Mixture Model for å finne de to distribusjonene som tilsvarer de to modusene. Jeg ' er ikke sikker på hva du mener med " og prøver å tilordne en verdi for den statistikken til hvert produkt " ?
  • Det ser ut til at du har glemt å presentere en graf med dataene dine.
  • @AdamO Hvilken type graf av dataene vil du ha liker å se? En scatterplot? Hvis ikke, fortell meg hva som vil være nyttig, så legger jeg til det.
  • @jerad Hva jeg mener med " tildeler hvert produkt en verdi av denne statistikken " (jeg korrigerte også innlegget på innlegget) er at jeg vil bruke den som en variabel i en regresjonsmodell der produktene er observasjonene. Dette er grunnen til at jeg vil finne en sammendragsverdi for produktene som har flere kategorier.
  • Beklager, tetthetsplottet lastet ikke ' da jeg så på det i min forrige nettleser.

Svar

Siden statistikk er bimodal, å ta gjennomsnittet av verdiene for alle produktkategoriene er meningsløst.

Jeg tror ikke dette er nødvendigvis sant. For eksempel , er brystkreftrisiko stratifisert til høy mot lav risiko basert på genetiske markører. Når du ikke vet hva din genetiske kode er, er det fortsatt fornuftig å rapportere gjennomsnittet.

Å lage kutt av variabelen har det tilknyttede problemet med det vilkårlige valget av cutoffs. Dette vil føre til noe skjevhet i estimeringen av modusene som kommer fra blandingens normale fordelinger. En alternativ tilnærming er den for EM-algoritmen der du samtidig kan estimere «høy» versus «lav» gruppetildeling i blandingsfordelingen og beregne CI for gjennomsnittet og det er standardfeil for hver gruppe. R er i dette dokumentet .

Kommentarer

  • Hvis jeg forstår deg riktig , hva EM-algoritmen tillater meg å gjøre, er å kunne fortelle om en verdi hører til den første eller andre unimodale fordelingen og med hvilken sannsynlighet?
  • Ja EM fungerer ved iterativt å estimere gruppemedlemskapsindikatoren og gjennomsnittet mellom hver gruppe.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *