Jeg har en statistik, der tildeler værdier til produktkategorier. Denne statistik viser stærk bimodalitet (se graf). Til analyse forsøger jeg at tildele en værdi af denne statistik til hvert produkt (rediger: at udføre en regressionsanalyse, hvor produkter er observationer). Dette er ligetil, når produktet kun er i en kategori. Men det bliver svært, når produkter tildeles mere end en kategori. Da statistikken er bimodal, er det meningsløst at tage gennemsnittet af værdierne for alle produktkategorier. Jeg er nysgerrig efter, om der er en måde at få denne slags resuméstatistikker på?
Mit spørgsmål har to relaterede dele :
a) En hurtig søgning gav mig ideen om, at der er et par måder at vurdere multimodality (Ashmans D, Bimodality index , bimodalitetskoefficient), men ingen ligetil måde at opsummere et antal værdier trukket ud fra en bimodal fordeling. fremtid, ville jeg være glad for at vide, hvad der er muligt at gøre i et sådant tilfælde for at opsummere den type data?
b) Den tilgang, jeg overvejer at bruge i øjeblikket, er at gøre min statistik til tre kategoriske en: en for værdierne tæt på nul, en for værdierne omkring 10 og endelig en for værdierne omkring 5. Derefter vil jeg for hvert produkt tælle antallet af gange, kategorierne det tilhører, er anført i hvert område. s giver mig teoretisk mening, men jeg spekulerer på, om der er noget statistisk faldgrube, jeg mangler? (Denne tilgang synes (meget) løst knyttet til den, der er vedtaget her , der ser på at opdele fordelingen i to populationer).
Kommentarer
- Det afhænger af, hvad dit mål er, men jeg vil bestemt foreslå at bruge en blandingsmodel til at finde de to distributioner, der svarer til de to tilstande. Jeg ' er ikke sikker på, hvad du mener med ", der prøver at tildele en værdi for denne statistik til hvert produkt " ?
- Det ser ud til, at du har glemt at præsentere en graf med dine data.
- @AdamO Hvilken type graf af data vil du have kan du lide at se? En scatterplot? Hvis ikke, fortæl mig hvad der ville være nyttigt, og jeg vil tilføje det.
- @jerad Hvad jeg mener med " tildel en værdi af denne statistik til hvert produkt " (jeg rettede også indlæggets tekst) er, at jeg vil bruge den som en variabel i en regressionsmodel, hvor produkterne er observationer. Dette er grunden til, at jeg vil finde en oversigtsværdi for de produkter, der har flere kategorier.
- Beklager, densitetsplottet blev ikke indlæst ' på min tidligere browser.
Svar
Siden statistik er bimodal, idet det at tage gennemsnittet af værdierne for alle produktkategorier er meningsløst.
Jeg tror ikke det nødvendigvis er sandt. For eksempel , risikoen for brystkræft er meget stratificeret til høj versus lav risiko baseret på genetiske markører. Når du ikke ved, hvad din genetiske kode er, er det stadig fornuftigt at rapportere gennemsnittet.
Oprettelse af nedskæringer af variablen har det tilknyttede problem med det vilkårlige valg af cutoffs. Dette vil medføre en vis bias i estimeringen af tilstande, der kommer fra blandingens normale fordelinger. En alternativ tilgang er den for EM-algoritmen, hvor du samtidig kan estimere “høj” versus “lav” gruppetildeling i blandingsfordelingen og beregne CIer for middelværdien, og det er standardfejl for hver gruppe. R er i dette dokument .
Kommentarer
- Hvis jeg forstår dig korrekt , hvad EM-algoritmen tillader mig at gøre, er at kunne fortælle, om en værdi hører til den første eller anden unimodale fordeling, og med hvilken sandsynlighed?
- Ja EM fungerer ved iterativt at estimere gruppemedlemskabsindikatoren og middelværdien mellem hver gruppe.