Si mon histogramme montre une courbe en forme de cloche, puis-je dire que mes données sont normalement distribuées?

Jai créé un histogramme pour lâge du répondant et jai réussi à obtenir une très belle courbe en forme de cloche, à partir de laquelle jai conclu que la distribution est normale.

Ensuite, jai exécuté le test de normalité dans SPSS, avec n = 169. La p -valeur (Sig.) du test Kolmogorov-Smirnov est inférieure à 0,05 et donc les données ont violé lhypothèse de normalité.

Pourquoi le test indique-t-il que la répartition par âge nest pas normale, mais lhistogramme a montré une courbe en forme de cloche, ce qui, daprès ce que je comprends, est normal? Quel résultat dois-je suivre?

Commentaires

  • Pourquoi testez-vous la normalité?
  • En plus de @Glen_b ‘ excellent commentaire et Aksakal ‘ est également excellente réponse , notez que même pour les distributions continues, KS exige que la moyenne et la sd soient connues à lavance , et non estimées à partir des données. Cela rend essentiellement le test K-S inutile.  » Le test Kolmogorov-Smirnov nest quune curiosité historique. Il ne doit jamais être utilisé.  » (D ‘ Agostino in d ‘ Agostino & Stephens, éds., 1986). Si cest le cas, utilisez plutôt Shapiro-Wilks.
  • @Stephan Kolassa Bon conseil, mais vous voulez dire Shapiro-Wilk. (Les suggestions de MB Wilk et SS Wilks sont souvent confuses ou confondues; létrange utilisation de ‘ s comme possessifs en anglais ici peut également contribuer à la confusion, même pour beaucoup de ceux qui ont langlais comme première langue.)
  • Relatif au commentaire de @StephanKolassa, voir Shapiro-Wilk est-il le meilleur test de normalité? … la réponse est que cela n’est pas ‘ t nécessairement, selon l’alternative qui vous ‘ vous intéresse, mais c’est très souvent un bon choix .

Réponse

Nous le savons généralement « s impossible pour une variable dêtre exactement normalement distribuée …

La distribution normale a des queues infiniment longues sétendant dans les deux sens – il est peu probable que les données se situent loin dans ces extrêmes, mais pour une distribution vraie normale, elle doit être physiquement possible. Pour les âges, un modèle normalement distribué prédira quil y a une probabilité non nulle que les données se situent à 5 écarts-types au-dessus ou au-dessous de la moyenne – ce qui correspondrait à des âges physiquement impossibles, par exemple en dessous de 0 ou au-dessus de 150. une pyramide des âges , il nest pas clair pourquoi vous vous attendriez à ce que lâge soit même à peu près normalement distribué en premier lieu.) De même si vous aviez des données sur les hauteurs, qui intuitivement pourrait suivre une distribution plus « normale », cela ne pourrait être vraiment normal que sil y avait une chance davoir des hauteurs inférieures à 0 cm ou supérieures à 300 cm.

I « ve parfois vu, cela suggérait que nous pouvons éluder ce problème en centrant les données pour avoir une moyenne de zéro. De cette façon, des «âges centrés» positifs et négatifs sont possibles. Mais bien que cela rende les deux valeurs négatives physiquement plausibles et interprétables (les valeurs centrées négatives correspondent aux valeurs réelles situées en dessous de la moyenne), cela ne résout pas le problème que le modèle normal produira des prédictions physiquement impossibles avec une probabilité non nulle, une fois que vous décoder l « âge centré » modélisé à un « âge réel ».

… alors pourquoi sembêter à tester? Même si elle nest pas exacte, la normalité peut toujours être un modèle utile

La question importante nest pas vraiment de savoir si les données sont exactement normales – nous savons a priori « Ce nest pas le cas, dans la plupart des situations, même sans exécuter de test dhypothèse – mais si l approximation est suffisamment proche pour vos besoins. Voir la question est-ce que les tests de normalité sont essentiellement inutiles? La distribution normale est une approximation pratique à bien des égards. Elle est rarement « correcte » – mais elle na généralement pas besoin dêtre exacte ly correct pour être utile. Je mattendrais à ce que la distribution normale soit généralement un modèle raisonnable pour les tailles des gens, mais il faudrait un contexte plus inhabituel pour que la distribution normale ait un sens en tant que modèle de lâge des gens.

Si vous ressentez vraiment le besoin deffectuer un test de normalité, alors Kolmogorov-Smirnov nest probablement pas la meilleure option: comme indiqué dans les commentaires, des tests plus puissants sont disponibles. Shapiro-Wilk a une bonne puissance contre une gamme dalternatives possibles, et a lavantage que vous navez pas besoin de connaître la vraie moyenne et la variance au préalable .Mais sachez que dans de petits échantillons, des écarts potentiellement assez importants par rapport à la normalité peuvent encore ne pas être détectés, tandis que dans de grands échantillons, même de très petits (et pour des raisons pratiques, non pertinents) des écarts par rapport à la normalité sont susceptibles de se manifester comme « hautement significatifs » (faible p -valeur).

« En forme de cloche » nest pas nécessairement normal

Il semble quon vous a dit de penser aux données « en forme de cloche » – des données symétriques qui culminent au milieu et qui ont une probabilité plus faible dans les queues – comme « normales ». Mais la distribution normale nécessite une forme spécifique pour son sommet et ses queues. Il existe dautres distributions avec une forme similaire à première vue, que vous avez peut-être également qualifiées de « en forme de cloche », mais qui ne sont pas normales. À moins que vous nayez beaucoup de données, il est peu probable que vous puissiez distinguer que «cela ressemble à cette distribution standard mais pas aux autres». Et si vous avez beaucoup de données, vous constaterez probablement que cela ne ressemble pas du tout à une distribution «standard»! Mais dans ce cas, à de nombreuses fins, vous « seriez tout aussi bien dutiliser le CDF empirique .

Galerie des

en forme de cloche  » distributions

Les distribution normale est la « forme de cloche » à laquelle vous êtes habitué; le Cauchy a un pic plus net et « plus lourd » (cest-à-dire contenant plus de probabilité) queues; la t distribution avec 5 degrés de liberté se situe quelque part entre les deux (la normale est t avec df infini et le Cauchy est t avec 1 df, donc cela a du sens); le Laplace ou distribution double exponentielle a pdf formé à partir de deux distributions exponentielles rééchelonnées dos à dos, résultant en un pic plus net que la distribution normale; la distribution bêta est assez différente – ce nest pas le cas avoir des queues qui partent à linfini ty par exemple, au lieu davoir des coupures pointues – mais il peut toujours avoir la forme de « bosse » au milieu. En fait, en jouant avec les paramètres, vous pouvez également obtenir une sorte de « bosse asymétrique », voire un « U » – la galerie sur la page Wikipédia liée est assez instructive sur la flexibilité de cette distribution. Enfin, le distribution triangulaire est une autre distribution simple sur un support fini, souvent utilisée dans la modélisation des risques.

Il est probable quaucune de ces distributions ne décrit exactement votre data, et de très nombreuses autres distributions avec des formes similaires existent, mais je voulais aborder lidée fausse selon laquelle « bosse au milieu et à peu près symétrique signifie normal ». Puisquil y a des limites physiques sur les données dâge, si vos données dâge sont « bosselées » au milieu, il est toujours possible quune distribution avec un support fini comme la bêta ou même une distribution triangulaire peut savérer un meilleur modèle quun modèle avec des queues infinies comme le normal. Notez que même si vos données étaient vraiment distribuées normalement, il est peu probable que votre histogramme ressemble à la « cloche » classique, à moins que la taille de votre échantillon ne soit assez grande. Même un échantillon dune distribution comme Laplace, dont le pdf se distingue clairement de cela de la normale en raison de sa cuspide, peut produire un histogramme qui ressemble visuellement à peu près à une cloche comme le ferait un échantillon véritablement normal.

Échantillons normaux et de Laplace de divers échantillons tailles

Code R

 par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)  

Réponse

Lâge ne peut pas être normal distribution. Think log ically: vous ne pouvez pas avoir dâge négatif, mais la distribution normale permet des nombres négatifs.

Il existe de nombreuses distributions en forme de cloche. Si quelque chose semble en forme de cloche, cela ne signifie pas que ce doit être normal.

Il ny a aucun moyen de savoir avec certitude quoi que ce soit dans les statistiques, y compris de quelle distribution les données proviennent. La forme est indice: la forme en cloche est un argument pour une distribution normale. De plus, il est très important de comprendre vos données. La variable telle que lâge est souvent biaisée, ce qui exclurait la normalité. Comme mentionné, la distribution normale na pas de limites, mais elle est parfois utilisée pour les variables bornées. Par exemple, si lâge moyen est de 20 ans et que lécart type est de 1, alors la probabilité dâge < 17 ou> 23 est inférieure à 0,3%. Donc , il est possible quune distribution normale soit une bonne approximation .

Vous pouvez essayer dexécuter un test statistique de normalité tel que Jarque-Bera, qui prend en compte lasymétrie et le kurtosis de Le kurtosis peut être important dans certains cas.Cest très important en finance, car si vous modélisez les données avec une distribution normale, mais que les données proviennent en fait dune distribution à grosse queue, vous risquez de sous-estimer les risques et les prix des actifs.

Cela vous aiderait à rapporter des statistiques descriptives ou un histogramme de vos données dâge et de taille, telles que la moyenne, la variance, lasymétrie, laplatissement.

Commentaires

  • Merci pour votre aide, pouvez-vous me dire comment savoir que certaines données proviennent de la distribution normale par exemple dans votre réponse a déclaré que lâge ne peut pas être de la distribution normale, quen est-il dautres données comme la taille. Je dois savoir.Je veux en savoir plus à ce sujet car il semble que jai mal compris le concept depuis que je suis nouveau dans ce domaine.Merci encore.
  • Pourtant, la distribution normale est souvent utilisé comme approximation pour des variables telles que lâge. Et ce nest pas vraiment un problème puisque vous pouvez définir age_centred comme et vous avez une variable avec une moyenne de 0, avec un écart type, des valeurs positives et négatives. Je ne serais donc pas ‘ si stricte à ce sujet.
  • Vous ne pouvez pas non plus avoir une taille négative pour les gens, mais cela ne ‘ t être un obstacle pour moi pour décrire la hauteur comme étant normalement distribuée si cétait une bonne approximation. Dailleurs, pourquoi utiliser une distribution avec des bornes infinies pour des mesures qui ne peuvent être que finies? Comme le dit @Tim, tout est une question dapproximations acceptables compte tenu des données et compte tenu de lobjectif.
  • Je suis daccord quune distribution normale pourrait parfois être une bonne approximation pour les données bornées, mais la question était de savoir si les données étaient normales ou non.
  • Lâge des diplômés du secondaire pourrait potentiellement être normalement distribué et prendre également des valeurs négatives si la moyenne était centrée comme @Tim la mentionné.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *