Ik heb een statistiek die waarden toewijst aan productcategorieën. Deze statistiek laat een sterke bimodaliteit zien (zie grafiek). Voor analyse probeer ik aan elk product een waarde toe te kennen aan die statistiek (bewerken: om een regressieanalyse uit te voeren waarin producten waarnemingen zijn). Dit is eenvoudig wanneer het product zich in slechts één categorie bevindt. Maar het wordt moeilijk wanneer producten aan meer dan één categorie worden toegewezen. Omdat de statistiek bimodaal is, is het zinloos om het gemiddelde van de waarden voor alle categorieën van een product te nemen. Ik ben benieuwd of er een manier is om dit soort samenvattende statistieken te krijgen?
Mijn vraag heeft twee gerelateerde delen :
a) Een snelle zoekopdracht bracht me op het idee dat er een paar manieren zijn om multimodaliteit te beoordelen (Ashmans D, Bimodality index , bimodaliteitscoëfficiënt), maar geen eenduidige manier om een aantal waarden samen te vatten die zijn afgeleid van een bimodale verdeling. Maar ik ben benieuwd of ik iets heb gemist? Voor de kwestie denk ik dat ik de benadering zal volgen die wordt beschreven in b, maar voor de toekomst, zou ik graag willen weten wat er in een dergelijk geval mogelijk is om dat soort gegevens samen te vatten?
b) De benadering die ik momenteel overweeg te volgen, is om mijn statistiek om te zetten in drie categorische enen: een voor de waarden dicht bij nul, een voor de waarden rond de 10, en ten slotte een voor de waarden rond de 5. Vervolgens tel ik voor elk product het aantal keren dat de categorieën waartoe het behoort in elk bereik worden vermeld. Thi s is theoretisch logisch voor mij, maar ik vraag me af of er een statistische valkuil is die ik mis? (Deze benadering lijkt (zeer) losjes verbonden met de benadering die hier wordt gevolgd, waarbij wordt gekeken naar het splitsen van de distributie in twee populaties).
Opmerkingen
- Het hangt af van wat je doel is, maar ik zou zeker aanraden om een Mixturemodel te gebruiken om de twee distributies te vinden die overeenkomen met de twee modi. Ik ' m weet niet zeker wat u bedoelt met " en ik probeer een waarde voor die statistiek toe te wijzen aan elk product " ?
- Het lijkt erop dat u bent vergeten een grafiek van uw gegevens te presenteren.
- @AdamO Welk type grafiek van de gegevens zou u wil zien? Een scatterplot? Zo niet, vertel me dan wat nuttig zou zijn en ik zal het toevoegen.
- @jerad Wat ik bedoel met " wijs een waarde van die statistiek toe aan elk product " (ik heb ook de tekst van het bericht gecorrigeerd) is dat ik het wil gebruiken als een variabele in een regressiemodel waarin de producten de waarnemingen zijn. Dit is de reden waarom ik een samenvattende waarde wil vinden voor de producten die meerdere categorieën hebben.
- Sorry, de dichtheidsgrafiek is niet ' geladen toen ik hem bekeek in mijn vorige browser.
Antwoord
Sinds de statistiek is bimodaal, het gemiddelde nemen van de waarden voor alle categorieën van een product is zinloos.
Ik denk niet dat dit noodzakelijkerwijs waar is. , is het risico op borstkanker sterk gestratificeerd in hoog versus laag risico op basis van genetische markers. Als u niet weet wat uw genetische code is, is het nog steeds zinvol om het gemiddelde te vermelden.
Verlagingen van de variabele maken heeft het bijbehorende probleem met de willekeurige keuze van cutoffs. Dit zal enige vertekening veroorzaken in de schatting van modi als afkomstig van normale mengverdelingen. Een alternatieve benadering is die van het EM-algoritme, waarbij u tegelijkertijd de “hoge” versus “lage” groepstoewijzing in de mengselverdeling kunt schatten en CIs kunt berekenen voor het gemiddelde en het is een standaardfout voor elke groep. De details hiervan in R bevinden zich in dit document .
Reacties
- Als ik je goed begrijp , wat het EM-algoritme me zou toestaan, is in staat zijn om te bepalen of een waarde tot de eerste of de tweede unimodale verdeling behoort en met welke waarschijnlijkheid?
- Ja EM werkt door iteratief de groepslidmaatschapsindicator te schatten en het gemiddelde tussen elke groep.