Est-ce une distribution asymétrique ou bimodale?

Il semble que cette distribution puisse être biaisée à droite et bimodale. Ou est-il juste juste biaisé?

entrez la description de limage ici

Commentaires

  • Tout dabord, jetez un œil à cette réponse .
  • Avez-vous seulement lhistogramme à consulter?

Réponse

Si lhistogramme était en fait la distribution à partir de laquelle les données ont été tirées (ce serait alors une distribution uniforme par morceaux, clairement), vous pourriez dire quelle était juste biaisée (à peu près nimporte quelle mesure raisonnable) et multimodale, car il y a clairement plus de deux modes. / p>

Mais nous « essayons vraisemblablement dutiliser lhistogramme pour déduire quelque chose sur la distribution de la population.

Ici, nous avons deux problèmes.

  1. Lhabitude de dire ce que nous voyons dans un échantillon à partir dune variation déchantillonnage (« bruit »). Léchantillonnage dune population qui nest pas asymétrique peut donner un échantillon qui semble certainement biaisé, et léchantillonnage dune population qui est unimodale peut donner un échantillon qui peut sembler avoir plus dun mode.

  2. Lapparence de lhistogramme peut parfois être fortement affectée par le choix de la largeur du bac et même de lorigine du bac . Le fait que lhistogramme de la question comporte de nombreux casiers permet datténuer à la fois létendue et la fréquence de ce type de problème, mais cela peut toujours se produire.

Si vous avez le échantillon original, vous pouvez éviter le deuxième problème dans une plus grande mesure en considérant plus dun affichage – non seulement des histogrammes peuvent être créés pour quelques largeurs et origines de casiers différentes, mais dautres affichages peuvent être utilisés – diagrammes QQ, empiriques cdfs et ainsi de suite. (Ils « sont un peu plus difficiles à apprendre pour extraire les informations, mais ils » ne sont pas si sujets à ce genre de problèmes.)

Cela dit, étant donné la grande taille de votre échantillon et en supposant que votre échantillon est un échantillon aléatoire dune population, nous serions assez sûrs de conclure que la distribution à partir de laquelle un tel échantillon a été tiré serait asymétrique. Limpression de bimodalité est relativement plus faible (dans le sens où nous pourrions raisonnablement voir que cela se produit avec une population qui nest pas réellement bimodale, du moins dans un échantillon plus petit), mais je mentionnerais tout de même lapparition de la bimodalité dans laffichage.

En ignorant complètement le problème en 2. pour le moment, nous pouvons avoir une idée de si cet histogramme pourrait se produire avec une population unimodale en considérant une distribution juste unimodale qui est proche de ce que lon observe et voit sil peut produire quelque chose daussi loin dêtre unimodal que ce que vous observez dans léchantillon.

Pour simplifier la situation, considérez la région entre environ 67 et 133 * (où jai inclus mes estimations des nombres de casiers pour les bacs pertinents dans cette région):

extrait de lhistogramme avec le nombre de cases

De chaque côté de cela, dans plusieurs casiers avant et après ce segment, la densité diminue assez clairement; la question est, pouvons-nous raisonnablement regar d cette pièce comme un échantillon aléatoire dun segment non croissant dune distribution?

* Notez que limpact du choix dune partie particulière et de la concentration sur cette partie en particulier est ignoré ici, mais ce nest pas quelque chose qui devrait vraiment être ignoré (cela pose définitivement le problème de « regarder les données » – par exemple, aurions-nous vraiment dû inclure le prochain bac après le dernier que nous avons inclus?). Cependant, je vais de toute façon aller de lavant pour donner le sens dune analyse simple qui donnerait une idée approximative de la compatibilité dune densité non croissante avec les données (conditionnelle au placement de la poubelle). Notez que cette « sélection de la partie étrange à regarder » comme celle-ci va généralement augmenter les chances de trouver quelque chose de « significatif », donc si nous « ne trouvons rien, il » y a vraiment peu de raisons de dire que cela na pas pu  » t être unimodal.

Premièrement, pour voir si cela est cohérent avec un échantillon dune distribution non croissante, nous avons besoin dune mesure de laugmentation. Je propose dajouter simplement les différences dans les nombres de casiers ($ b_i-b_ {i -1} $) chaque fois quils augmentent (et comptent 0 dans le cas contraire), cest-à-dire $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Donc pour les nombres de casiers de 369, 373, 413, 375, 382 , 375 le total des sauts ascendants est U = 4 + 40 + 0 + 7 + 0 = 51.

Le « meilleur » cas non croissant pour produire notre affichage sera luniforme.

Le nombre total dans cette région est de 2287 et il y a 6 casiers.

Quelle est la probabilité quun échantillon de taille 2287 de six catégories de probabilité égale puisse produire un total-up- saut, $ U $ dau moins 51? Cest quelque chose de facile à trouver par simulation.

Essayer cela dans R:

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349 

Cela suggère donc que dans une section uniforme dune densité, vous pourriez facilement voir cette augmentation à partir de cette taille d’échantillon – environ la moitié du temps, il augmenterait au moins autant s’il était uniforme.

Bien sûr, nous aurions pu choisir une autre mesure, mais cela me suffit. cela est cohérent avec luniformité dans cette section, et donc lhistogramme nest pas incompatible avec un échantillon aléatoire dune distribution unimodale globale.

[Edit: pour être complet, je suis retourné plus tard et jai regardé quelques autres testez les statistiques pour voir si cela ferait une grande différence, mais ils n’ont rien indiqué non plus]

Ce n’est pas suffisant pour le déclarer unimodal, bien sûr. Nous ne pouvons tout simplement pas le dire « nest pas unimodal.

Donc, je le décrirais comme semblant être biaisé vers la droite. Si vous devez dire si la population a ou non plus dun mode, jirais seulement jusquà dire quil existe une possibilité dun deuxième mode aux alentours de 100, mais il est difficile den conclure quoi que ce soit afficher.

Commentaires

  • Wow – génial. Cela rend les choses tellement plus claires! Merci!
  • " Que ' nest pas suffisant pour le déclarer X, bien sûr. Nous pouvons simplement ' t dire que ' nest pas Y. " – Statistiques en bref.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *