Jag har en statistik som tilldelar värden till produktkategorier. Denna statistik visar stark bimodalitet (se diagram). För analys försöker jag tilldela varje produkt ett värde av den statistiken (redigera: att utföra en regressionsanalys där produkter är observationer). Detta är enkelt när produkten bara finns i en kategori. Men det blir svårt när produkter tilldelas mer än en kategori. Eftersom statistiken är bimodal är det meningslöst att ta genomsnittet av värdena för alla produktkategorier. Jag är nyfiken på om det finns ett sätt att få den här typen av sammanfattningsstatistik?
Min fråga har två relaterade delar :
a) En snabb sökning gav mig idén att det finns några sätt att bedöma multimodalitet (Ashmans D, Bimodalitetsindex , bimodalitetskoefficient), men inget enkelt sätt att sammanfatta ett antal värden som dras från en bimodal fördelning. Men jag är nyfiken på att jag saknade något? För den aktuella frågan tror jag att jag kommer att anta den metod som beskrivs i b, framtid skulle jag gärna veta vad som är möjligt att göra i ett sådant fall för att sammanfatta den typen av data?
b) Den metod jag överväger att använda just nu är att förvandla min statistik till tre kategoriska en: en för värdena nära noll, en för värdena runt 10 och slutligen en för värdena runt 5. Sedan räknar jag för varje produkt hur många gånger kategorierna det tillhör listas i varje intervall. s är teoretiskt vettigt för mig, men jag undrar om det finns någon statistisk fallgrop jag saknar? (Detta tillvägagångssätt verkar (väldigt) löst kopplat till det som antogs här , som ser på att dela upp fördelningen i två populationer.
Kommentarer
- Det beror på vad ditt mål är, men jag föreslår verkligen att du använder en Mixture Model för att hitta de två fördelningarna som motsvarar de två lägena. Jag ' är inte säker på vad du menar med " som försöker tilldela ett värde för den statistiken till varje produkt " ?
- Det verkar som om du har glömt att presentera en graf med dina data.
- @AdamO Vilken typ av diagram av data skulle du gillar att se? En scatterplot? Om inte, berätta för mig vad som skulle vara till hjälp så lägger jag till det.
- @jerad Vad jag menar med " tilldela varje produkt ett värde av den statistiken " (jag korrigerade också inläggets text) är att jag vill använda den som en variabel i en regressionsmodell där produkterna är observationerna. Det är därför jag vill hitta ett sammanfattningsvärde för produkter som har flera kategorier.
- Tyvärr, densitetsdiagrammet laddade inte ' när jag tittade på det i min tidigare webbläsare.
Svar
Sedan statistik är bimodal, att ta genomsnittet av värdena för alla produktkategorier är meningslöst.
Jag tror inte att detta nödvändigtvis är sant. Till exempel är risken för bröstcancer mycket stratifierad till hög mot låg risk baserat på genetiska markörer. När du inte vet vad din genetiska kod är, är det ändå vettigt att rapportera genomsnittet.
Skapa nedskärningar av variabeln har det associerade problemet med det godtyckliga valet av avbrott. Detta kommer att orsaka viss förspänning i uppskattningen av lägen som kommer från blandningsnormala fördelningar. Ett alternativt tillvägagångssätt är det för EM-algoritmen där du samtidigt kan uppskatta grupptilldelningen ”hög” mot ”låg” i blandningsfördelningen och beräkna CI för medelvärdet och det är standardfel för varje grupp. R finns i det här dokumentet .
Kommentarer
- Om jag förstår dig rätt , vad EM-algoritmen skulle tillåta mig att göra är att kunna berätta om ett värde tillhör den första eller andra unimodala fördelningen och med vilken sannolikhet?
- Ja EM fungerar genom att upprepa gruppmedlemskapets indikator och medelvärdet mellan varje grupp.