Construction dun résumé pour les valeurs tirées dune distribution bimodale

Jai une statistique qui attribue des valeurs aux catégories de produits. Cette statistique montre une forte bimodalité (voir graphique). Pour lanalyse, jessaie dattribuer une valeur de cette statistique à chaque produit (modifier: pour effectuer une analyse de régression dans laquelle les produits sont des observations). Cest simple lorsque les produits sont dans une seule catégorie. Mais cela devient difficile lorsque les produits se voient attribuer plus dune catégorie. Comme la statistique est bimodale, prendre la moyenne des valeurs pour toutes les catégories dun produit na pas de sens. Je suis curieux de savoir sil existe un moyen dobtenir ce type de statistiques récapitulatives?

diagramme de densité

Ma question comporte deux parties liées :

a) Une recherche rapide ma donné lidée quil existe plusieurs façons dévaluer la multimodalité (Ashman « s D, indice de bimodalité , coefficient de bimodalité), mais pas de façon simple de résumer un certain nombre de valeurs tirées dune distribution bimodale. Mais je suis curieux de savoir si jai manqué quelque chose? Pour le problème en question, je pense que je vais adopter lapproche décrite en b, mais pour le à lavenir, je serais heureux de savoir ce quil est possible de faire dans un tel cas pour résumer ce type de données?

b) Lapproche que jenvisage dadopter pour le moment est de transformer ma statistique en trois catégories les uns: un pour les valeurs proches de zéro, un pour les valeurs autour de 10, et enfin un pour les valeurs autour de 5. Ensuite, pour chaque produit, je compterais le nombre de fois où les catégories auxquelles il appartient sont listés dans chaque plage. Thi s a un sens pour moi en théorie, mais je me demande sil y a un écueil statistique qui me manque? (Cette approche semble (très) vaguement liée à celle adoptée ici , qui consiste à diviser la distribution en deux populations).

Commentaires

  • Cela dépend de votre objectif, mais je suggérerais certainement dutiliser un modèle de mélange pour trouver les deux distributions qui correspondent aux deux modes. Je ' ne sais pas ce que vous entendez par " en essayant dattribuer une valeur pour cette statistique à chaque produit " ?
  • Il semble que vous ayez oublié de présenter un graphique de vos données.
  • @AdamO Quel type de graphique des données feriez-vous aimer voir? Un nuage de points? Sinon, dites-moi ce qui serait utile et je l’ajouterai.
  • @jerad Ce que je veux dire par " attribuer une valeur de cette statistique à chaque produit " (jai aussi corrigé le texte de larticle) cest que je veux lutiliser comme variable dans un modèle de régression dans lequel les produits sont les observations. Cest pourquoi je veux trouver une valeur récapitulative pour les produits qui ont plusieurs catégories.
  • Désolé, le graphique de densité na ' t chargé lorsque je lai consulté sur mon navigateur précédent.

Réponse

Depuis le la statistique est bimodale, prendre la moyenne des valeurs pour toutes les catégories dun produit na pas de sens.

Je ne pense pas que ce soit nécessairement vrai. Par exemple , le risque de cancer du sein est fortement stratifié en risque élevé ou faible en fonction des marqueurs génétiques. Lorsque vous ne savez pas quel est votre code génétique, il est toujours judicieux de rapporter la moyenne.

Créer des coupes de la variable a le problème associé avec le choix arbitraire des seuils. Cela entraînera un certain biais dans lestimation des modes comme provenant des distributions normales de mélange. Une autre approche est celle de lalgorithme EM où vous pouvez simultanément estimer laffectation de groupe «élevé» par rapport à «faible» dans la distribution de mélange et calculer les IC pour la moyenne et lerreur standard pour chaque groupe. R se trouvent dans ce document .

Commentaires

  • Si je vous comprends bien , ce que lalgorithme EM me permettrait de faire est de pouvoir dire si une valeur appartient à la première ou à la deuxième distribution unimodale et avec quelle probabilité?
  • Oui EM fonctionne en estimant de manière itérative lindicateur dappartenance au groupe et la moyenne entre chaque groupe.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *