Si mon histogramme montre une courbe en forme de cloche, puis-je dire que mes données sont normalement distribuées?

Question

Jai créé un histogramme pour lâge du répondant et jai réussi à obtenir une très belle courbe en forme de cloche, à partir de laquelle jai conclu que la distribution est normale.

Ensuite, jai exécuté le test de normalité dans SPSS, avec n = 169. La p -valeur (Sig.) du test Kolmogorov-Smirnov est inférieure à 0,05 et donc les données ont violé lhypothèse de normalité.

Pourquoi le test indique-t-il que la répartition par âge nest pas normale, mais lhistogramme a montré une courbe en forme de cloche, ce qui, daprès ce que je comprends, est normal? Quel résultat dois-je suivre?

Commentaires

Pourquoi testez-vous la normalité?
En plus de @Glen_b ‘ excellent commentaire et Aksakal ‘ est également excellente réponse , notez que même pour les distributions continues, KS exige que la moyenne et la sd soient connues à lavance , et non estimées à partir des données. Cela rend essentiellement le test K-S inutile. » Le test Kolmogorov-Smirnov nest quune curiosité historique. Il ne doit jamais être utilisé. » (D ‘ Agostino in d ‘ Agostino & Stephens, éds., 1986). Si cest le cas, utilisez plutôt Shapiro-Wilks.
@Stephan Kolassa Bon conseil, mais vous voulez dire Shapiro-Wilk. (Les suggestions de MB Wilk et SS Wilks sont souvent confuses ou confondues; létrange utilisation de ‘ s comme possessifs en anglais ici peut également contribuer à la confusion, même pour beaucoup de ceux qui ont langlais comme première langue.)
Relatif au commentaire de @StephanKolassa, voir Shapiro-Wilk est-il le meilleur test de normalité? … la réponse est que cela n’est pas ‘ t nécessairement, selon l’alternative qui vous ‘ vous intéresse, mais c’est très souvent un bon choix .

Answer 1

Nous le savons généralement « s impossible pour une variable dêtre exactement normalement distribuée …

La distribution normale a des queues infiniment longues sétendant dans les deux sens – il est peu probable que les données se situent loin dans ces extrêmes, mais pour une distribution vraie normale, elle doit être physiquement possible. Pour les âges, un modèle normalement distribué prédira quil y a une probabilité non nulle que les données se situent à 5 écarts-types au-dessus ou au-dessous de la moyenne – ce qui correspondrait à des âges physiquement impossibles, par exemple en dessous de 0 ou au-dessus de 150. une pyramide des âges , il nest pas clair pourquoi vous vous attendriez à ce que lâge soit même à peu près normalement distribué en premier lieu.) De même si vous aviez des données sur les hauteurs, qui intuitivement pourrait suivre une distribution plus « normale », cela ne pourrait être vraiment normal que sil y avait une chance davoir des hauteurs inférieures à 0 cm ou supérieures à 300 cm.

I « ve parfois vu, cela suggérait que nous pouvons éluder ce problème en centrant les données pour avoir une moyenne de zéro. De cette façon, des «âges centrés» positifs et négatifs sont possibles. Mais bien que cela rende les deux valeurs négatives physiquement plausibles et interprétables (les valeurs centrées négatives correspondent aux valeurs réelles situées en dessous de la moyenne), cela ne résout pas le problème que le modèle normal produira des prédictions physiquement impossibles avec une probabilité non nulle, une fois que vous décoder l « âge centré » modélisé à un « âge réel ».

… alors pourquoi sembêter à tester? Même si elle nest pas exacte, la normalité peut toujours être un modèle utile

La question importante nest pas vraiment de savoir si les données sont exactement normales – nous savons a priori « Ce nest pas le cas, dans la plupart des situations, même sans exécuter de test dhypothèse – mais si l approximation est suffisamment proche pour vos besoins. Voir la question est-ce que les tests de normalité sont essentiellement inutiles? La distribution normale est une approximation pratique à bien des égards. Elle est rarement « correcte » – mais elle na généralement pas besoin dêtre exacte ly correct pour être utile. Je mattendrais à ce que la distribution normale soit généralement un modèle raisonnable pour les tailles des gens, mais il faudrait un contexte plus inhabituel pour que la distribution normale ait un sens en tant que modèle de lâge des gens.

Si vous ressentez vraiment le besoin deffectuer un test de normalité, alors Kolmogorov-Smirnov nest probablement pas la meilleure option: comme indiqué dans les commentaires, des tests plus puissants sont disponibles. Shapiro-Wilk a une bonne puissance contre une gamme dalternatives possibles, et a lavantage que vous navez pas besoin de connaître la vraie moyenne et la variance au préalable .Mais sachez que dans de petits échantillons, des écarts potentiellement assez importants par rapport à la normalité peuvent encore ne pas être détectés, tandis que dans de grands échantillons, même de très petits (et pour des raisons pratiques, non pertinents) des écarts par rapport à la normalité sont susceptibles de se manifester comme « hautement significatifs » (faible p -valeur).

« En forme de cloche » nest pas nécessairement normal

Il semble quon vous a dit de penser aux données « en forme de cloche » – des données symétriques qui culminent au milieu et qui ont une probabilité plus faible dans les queues – comme « normales ». Mais la distribution normale nécessite une forme spécifique pour son sommet et ses queues. Il existe dautres distributions avec une forme similaire à première vue, que vous avez peut-être également qualifiées de « en forme de cloche », mais qui ne sont pas normales. À moins que vous nayez beaucoup de données, il est peu probable que vous puissiez distinguer que «cela ressemble à cette distribution standard mais pas aux autres». Et si vous avez beaucoup de données, vous constaterez probablement que cela ne ressemble pas du tout à une distribution «standard»! Mais dans ce cas, à de nombreuses fins, vous « seriez tout aussi bien dutiliser le CDF empirique .

Galerie des

Answer 2

Lâge ne peut pas être normal distribution. Think log ically: vous ne pouvez pas avoir dâge négatif, mais la distribution normale permet des nombres négatifs.

Il existe de nombreuses distributions en forme de cloche. Si quelque chose semble en forme de cloche, cela ne signifie pas que ce doit être normal.

Il ny a aucun moyen de savoir avec certitude quoi que ce soit dans les statistiques, y compris de quelle distribution les données proviennent. La forme est indice: la forme en cloche est un argument pour une distribution normale. De plus, il est très important de comprendre vos données. La variable telle que lâge est souvent biaisée, ce qui exclurait la normalité. Comme mentionné, la distribution normale na pas de limites, mais elle est parfois utilisée pour les variables bornées. Par exemple, si lâge moyen est de 20 ans et que lécart type est de 1, alors la probabilité dâge < 17 ou> 23 est inférieure à 0,3%. Donc , il est possible quune distribution normale soit une bonne approximation .

Vous pouvez essayer dexécuter un test statistique de normalité tel que Jarque-Bera, qui prend en compte lasymétrie et le kurtosis de Le kurtosis peut être important dans certains cas.Cest très important en finance, car si vous modélisez les données avec une distribution normale, mais que les données proviennent en fait dune distribution à grosse queue, vous risquez de sous-estimer les risques et les prix des actifs.

Cela vous aiderait à rapporter des statistiques descriptives ou un histogramme de vos données dâge et de taille, telles que la moyenne, la variance, lasymétrie, laplatissement.

Commentaires

Merci pour votre aide, pouvez-vous me dire comment savoir que certaines données proviennent de la distribution normale par exemple dans votre réponse a déclaré que lâge ne peut pas être de la distribution normale, quen est-il dautres données comme la taille. Je dois savoir.Je veux en savoir plus à ce sujet car il semble que jai mal compris le concept depuis que je suis nouveau dans ce domaine.Merci encore.
Pourtant, la distribution normale est souvent utilisé comme approximation pour des variables telles que lâge. Et ce nest pas vraiment un problème puisque vous pouvez définir age_centred comme et vous avez une variable avec une moyenne de 0, avec un écart type, des valeurs positives et négatives. Je ne serais donc pas ‘ si stricte à ce sujet.
Vous ne pouvez pas non plus avoir une taille négative pour les gens, mais cela ne ‘ t être un obstacle pour moi pour décrire la hauteur comme étant normalement distribuée si cétait une bonne approximation. Dailleurs, pourquoi utiliser une distribution avec des bornes infinies pour des mesures qui ne peuvent être que finies? Comme le dit @Tim, tout est une question dapproximations acceptables compte tenu des données et compte tenu de lobjectif.
Je suis daccord quune distribution normale pourrait parfois être une bonne approximation pour les données bornées, mais la question était de savoir si les données étaient normales ou non.
Lâge des diplômés du secondaire pourrait potentiellement être normalement distribué et prendre également des valeurs négatives si la moyenne était centrée comme @Tim la mentionné.

Si mon histogramme montre une courbe en forme de cloche, puis-je dire que mes données sont normalement distribuées?

Commentaires

Réponse

Réponse

Commentaires

Laisser un commentaire Annuler la réponse