Ho una statistica che assegna valori a categorie di prodotti. Questa statistica mostra una forte bimodalità (vedi grafico). Per lanalisi, sto cercando di assegnare un valore di quella statistica a ciascun prodotto (modifica: per eseguire unanalisi di regressione in cui i prodotti sono osservazioni). Questo è semplice quando i prodotti sono in una sola categoria. Ma diventa difficile quando ai prodotti viene assegnata più di una categoria. Poiché la statistica è bimodale, non ha senso prendere la media dei valori per tutte le categorie di un prodotto. Sono curioso di sapere se esiste un modo per ottenere questo tipo di statistiche riassuntive?
La mia domanda ha due parti correlate :
a) Una rapida ricerca mi ha dato lidea che ci sono alcuni modi per valutare la multimodalità (Ashman “s D, Bimodality index , coefficiente di bimodalità), ma non è un modo semplice per riassumere un numero di valori tratti da una distribuzione bimodale. Ma sono curioso se mi sono perso qualcosa? Per il problema in questione, penso che adotterò lapproccio descritto in b, ma per il futuro, sarei felice di sapere cosa è possibile fare in tal caso per riassumere quel tipo di dati?
b) Lapproccio che sto considerando di adottare al momento è trasformare la mia statistica in tre categorie quelli: uno per i valori prossimi a zero, uno per i valori intorno a 10 e infine uno per i valori intorno a 5. Quindi per ogni prodotto, conterei il numero di volte in cui le categorie a cui appartiene sono elencate in ciascun intervallo. s ha senso per me in teoria, ma mi chiedo se ci sia qualche trappola statistica che mi manca? (Questo approccio sembra (molto) vagamente collegato a quello adottato qui , che esamina la divisione della distribuzione in due popolazioni).
Commenti
- Dipende dal tuo obiettivo, ma ti suggerirei sicuramente di utilizzare un Mixture Model per trovare le due distribuzioni che corrispondono alle due modalità. ' non sono sicuro di cosa intendi per " cercando di assegnare un valore per quella statistica a ciascun prodotto " ?
- Sembra che tu abbia dimenticato di presentare un grafico dei tuoi dati.
- @AdamO Che tipo di grafico dei dati vorresti piacerebbe vedere? Un grafico a dispersione? In caso contrario, dimmi cosa sarebbe utile e lo aggiungerò.
- @jerad Cosa intendo per " assegna un valore di tale statistica a ciascun prodotto " (ho corretto anche il testo del post) è che voglio usarlo come variabile in un modello di regressione in cui i prodotti sono le osservazioni. Questo è il motivo per cui desidero trovare un valore di riepilogo per i prodotti che hanno più categorie.
- Spiacenti, il grafico della densità non è stato ' caricato durante la visualizzazione sul mio browser precedente.
Risposta
Poiché statistica è bimodale, prendere la media dei valori per tutte le categorie di un prodotto non ha senso.
Non penso che questo sia necessariamente vero. Ad esempio , il rischio di cancro al seno è altamente stratificato in alto vs basso in base a marcatori genetici. Quando non sai qual è il tuo codice genetico, ha comunque senso riportare la media.
Creare tagli della variabile ha il problema associato con la scelta arbitraria dei limiti. Ciò causerà alcuni errori nella stima dei modi come provenienti da distribuzioni normali di miscele. Un approccio alternativo è quello dellalgoritmo EM in cui è possibile stimare simultaneamente lassegnazione del gruppo “alto” rispetto a “basso” nella distribuzione della miscela e calcolare CI per la media e il suo errore standard per ciascun gruppo. I dettagli di farlo in R sono in questo documento .
Commenti
- Se ho capito bene , ciò che lalgoritmo EM mi permetterebbe di fare è essere in grado di dire se un valore appartiene alla prima o alla seconda distribuzione unimodale e con quale probabilità?
- Sì EM funziona stimando iterativamente lindicatore di appartenenza al gruppo e la media tra ogni gruppo.