Construirea unui rezumat pentru valorile extrase dintr-o distribuție bimodală

Am o statistică care atribuie valori categoriilor de produse. Această statistică arată bimodalitate puternică (vezi graficul). Pentru analiză, încerc să atribui o valoare a statisticii respective fiecărui produs (editați: pentru a efectua o analiză de regresie în care produsele sunt observații). Acest lucru este simplu atunci când produsul se află într-o singură categorie. Dar devine dificil atunci când produselor li se atribuie mai multe categorii. Deoarece statistica este bimodală, luarea mediei valorilor pentru toate categoriile unui produs este lipsită de sens. Sunt curios dacă există o modalitate de a obține acest tip de statistici rezumative?

grafic de densitate

Întrebarea mea are două părți conexe :

a) O căutare rapidă mi-a dat ideea că există câteva modalități de evaluare a multimodalitate (Ashman „s D, indicele Bimodalității , coeficient de bimodalitate), dar nici o modalitate simplă de a rezuma o serie de valori extrase dintr-o distribuție bimodală. Dar sunt curios dacă am ratat ceva? Pentru problema de față, cred că voi adopta abordarea descrisă în b, dar pentru viitor, aș fi fericit să știu ce este posibil să fac într-un astfel de caz pentru a rezuma acel tip de date?

b) Abordarea pe care o consider în prezent să o adopt este să îmi transform statisticile în trei categorii unele: una pentru valorile apropiate de zero, una pentru valorile în jurul valorii de 10 și, în cele din urmă, una pentru valorile în jurul valorii de 5. Apoi, pentru fiecare produs, aș număra de câte ori categoriile de care aparține sunt listate în fiecare gamă. Te rog, teoretic, pentru mine, dar mă întreb dacă există o capcană statistică care îmi lipsește? (Această abordare pare (foarte) vag legată de cea adoptată aici , care urmărește împărțirea distribuției în două populații).

Comentarii

  • Depinde care este obiectivul dvs., dar aș sugera cu siguranță utilizarea unui model de amestec pentru a găsi cele două distribuții care corespund celor două moduri. ' nu știu ce vrei să spui prin " încercând să atribuie o valoare pentru statistica respectivă fiecărui produs " ?
  • Se pare că ați uitat să prezentați un grafic al datelor dvs.
  • @AdamO Ce tip de grafic al datelor ați dori imi place sa vad? O schemă de împrăștiere? Dacă nu, spuneți-mi ce ar fi de ajutor și îl voi adăuga.
  • @jerad Ce vreau să spun prin " atribuiți o valoare a statisticii respective fiecărui produs " (am corectat și textul postării) este că vreau să-l folosesc ca variabilă într-un model de regresie în care produsele sunt observațiile. Acesta este motivul pentru care doresc să găsesc o valoare rezumativă pentru produsele care au mai multe categorii.
  • Ne pare rău, graficul densității nu s-a încărcat ' când l-am vizionat pe browserul meu anterior.

Răspuns

De la statistica este bimodală, luând media valorilor pentru toate categoriile unui produs nu are sens.

Nu cred că acest lucru este neapărat adevărat. De exemplu, , riscul de cancer mamar este foarte stratificat în risc ridicat față de scăzut pe baza markerilor genetici. Când nu știți care este codul dvs. genetic, este totuși logic să raportați media.

Crearea reducerilor variabilei are problema asociată cu alegerea arbitrară a limitelor. Acest lucru va provoca o anumită părtinire în estimarea modurilor ca provenind din distribuțiile normale ale amestecului. O abordare alternativă este cea a algoritmului EM, unde puteți estima simultan atribuirea grupului „ridicat” versus „scăzut” în distribuția amestecului și puteți calcula IC pentru medie și eroarea standard pentru fiecare grup. Detaliile procedării în R sunt în acest document .

Comentarii

  • Dacă te înțeleg corect , ceea ce algoritmul EM mi-ar permite să fac este să pot spune dacă o valoare aparține primei sau celei de-a doua distribuții unimodale și cu ce probabilitate?
  • Da, EM funcționează prin estimarea iterativă a indicatorului de apartenență la grup. și media dintre fiecare grup.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *