Construyendo un resumen de valores extraídos de una distribución bimodal

Tengo una estadística que asigna valores a categorías de productos. Esta estadística muestra una fuerte bimodalidad (ver gráfico). Para el análisis, estoy tratando de asignar un valor de esa estadística a cada producto (editar: para realizar un análisis de regresión en el que los productos son observaciones). Esto es sencillo cuando los productos están en una sola categoría. Pero se vuelve difícil cuando a los productos se les asigna más de una categoría. Dado que la estadística es bimodal, no tiene sentido tomar el promedio de los valores para todas las categorías de un producto. Tengo curiosidad por saber si hay alguna forma de obtener este tipo de estadísticas resumidas.

gráfico de densidad

Mi pregunta tiene dos partes relacionadas :

a) Una búsqueda rápida me dio la idea de que hay algunas formas de evaluar la multimodalidad (D de Ashman, índice de bimodalidad , coeficiente de bimodalidad), pero no hay una manera sencilla de resumir una serie de valores extraídos de una distribución bimodal. Pero tengo curiosidad por saber si me perdí algo. Para el problema en cuestión, creo que adoptaré el enfoque descrito en b, pero para el futuro, me complacería saber qué es posible hacer en tal caso para resumir ese tipo de datos.

b) El enfoque que estoy considerando adoptar en este momento es convertir mi estadística en tres categorías unos: uno para los valores cercanos a cero, uno para los valores alrededor de 10 y finalmente uno para los valores alrededor de 5. Luego, para cada producto, contaría el número de veces que las categorías a las que pertenece se enumeran en cada rango. s tiene sentido para mí teóricamente, pero me pregunto si hay algún error estadístico que me falta. (Este enfoque parece (muy) vagamente relacionado con el adoptado aquí , que busca dividir la distribución en dos poblaciones).

Comentarios

  • Depende de cuál sea su objetivo, pero sin duda sugeriría usar un Modelo de mezcla para encontrar las dos distribuciones que corresponden a los dos modos. ' no estoy seguro de lo que quieres decir con " tratando de asignar un valor para esa estadística a cada producto " ?
  • Parece que olvidó presentar un gráfico de sus datos.
  • @AdamO ¿Qué tipo de gráfico de los datos ¿Me gusta ver? ¿Una gráfica de dispersión? Si no es así, dígame qué sería útil y lo agregaré.
  • @jerad Lo que quiero decir con " asignar un valor de esa estadística a cada producto " (también corrigí el texto del post) es que quiero usarlo como variable en un modelo de regresión en el que los productos son las observaciones. Es por eso que quiero encontrar un valor de resumen para los productos que tienen varias categorías.
  • Lo siento, el gráfico de densidad no ' t cargó cuando lo estaba viendo en mi navegador anterior.

Respuesta

Dado que la estadística es bimodal, tomar el promedio de los valores para todas las categorías de un producto no tiene sentido.

No creo que esto sea necesariamente cierto. Por ejemplo , el riesgo de cáncer de mama está altamente estratificado en alto o bajo riesgo según los marcadores genéticos. Cuando no sabe cuál es su código genético, todavía tiene sentido informar el promedio.

Crear cortes de la variable tiene el problema asociado con la elección arbitraria de los límites. Esto provocará cierto sesgo en la estimación de los modos como resultado de distribuciones normales mixtas. Un enfoque alternativo es el del algoritmo EM, en el que puede estimar simultáneamente la asignación de grupo «alta» frente a la «baja» en la distribución de la mezcla y calcular los IC para la media y su error estándar para cada grupo. Los detalles para hacerlo en R están en este documento .

Comentarios

  • Si te entiendo correctamente , lo que me permitiría hacer el algoritmo EM es poder decir si un valor pertenece a la primera o la segunda distribución unimodal y con qué probabilidad?
  • Sí, EM funciona estimando iterativamente el indicador de pertenencia al grupo y la media entre cada grupo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *