Se il mio istogramma mostra una curva a campana, posso dire che i miei dati sono normalmente distribuiti?

Ho creato un istogramma per Respondent Age e sono riuscito a ottenere una curva a campana molto bella, dalla quale ho concluso che la distribuzione è normale.

Quindi ho eseguito il test di normalità in SPSS, con n = 169. Il valore p (Sig.) del test di Kolmogorov-Smirnov è inferiore a 0,05 e così i dati hanno violato il presupposto di normalità.

Perché il test indica che la distribuzione per età non è normale, ma listogramma mostra una curva a campana, che dalla mia comprensione è normale? Quale risultato dovrei seguire?

Commenti

  • Perché stai testando la normalità?
  • Oltre a @Glen_b ‘ s eccellente commento e Aksakal ‘ è la risposta altrettanto eccellente , nota che anche per le distribuzioni continue, KS richiede che la media e sd siano conosciute in anticipo , non stimate dai dati. Questo essenzialmente rende inutile il test K-S. ” Il test di Kolmogorov-Smirnov è solo una curiosità storica. Non dovrebbe mai essere utilizzato. ” (D ‘ Agostino in d ‘ Agostino & Stephens, eds., 1986). Se non del tutto, usa Shapiro-Wilks invece.
  • @Stephan Kolassa Un buon consiglio, ma intendi Shapiro-Wilk. (I suggerimenti di MB Wilk e SS Wilks sono spesso confusi o confusi; lo strano uso di ‘ s come possessivi in inglese qui può anche contribuire a creare confusione, anche per molti che hanno inglese come prima lingua.)
  • In relazione al commento di @StephanKolassa, vedere Shapiro-Wilk è il miglior test di normalità? … la risposta è che non è necessariamente ‘, a seconda dellalternativa a cui ‘ sei interessato, ma molto spesso è una buona scelta .

Risposta

Di solito lo sappiamo “s impossibile che una variabile sia esattamente distribuita normalmente …

La distribuzione normale ha code infinitamente lunghe che si estendono in entrambe le direzioni – è improbabile che i dati si trovino molto al di fuori di questi estremi, ma per una distribuzione vera normale deve essere fisicamente possibile. Per le età, un modello distribuito normalmente prevede che vi sia una probabilità diversa da zero che i dati si trovino 5 deviazioni standard sopra o sotto la media, che corrisponderebbero a età fisicamente impossibili, come inferiore a 0 o superiore a 150 (sebbene se guardi una piramide della popolazione , non è chiaro il motivo per cui ti aspetteresti che letà sia distribuita approssimativamente normalmente in primo luogo.) Allo stesso modo se avessi dati sulle altezze, che intuitivamente potrebbe seguire una distribuzione più “normale”, potrebbe essere veramente normale solo se ci fosse qualche possibilità di altezze inferiori a 0 cm o superiori a 300 cm.

Ho “ve visto occasionalmente ha suggerito che possiamo eludere questo problema centrando i dati in modo che abbiano media zero. In questo modo sono possibili “età centrate” sia positive che negative. Ma sebbene questo renda entrambi i valori negativi fisicamente plausibili e interpretabili (i valori centrati negativi corrispondono a valori effettivi che si trovano al di sotto della media), non aggira il problema che il modello normale produrrà previsioni fisicamente impossibili con probabilità diversa da zero, una volta decodificare l “età centrata” modellata in una “età effettiva”.

… quindi perché preoccuparsi di testare? Anche se non esatta, la normalità può ancora essere un modello utile

La domanda importante non è “veramente se i dati siano esattamente normali – sappiamo a priori che può “Questo è il caso, nella maggior parte delle situazioni, anche senza eseguire un test di ipotesi, ma se l approssimazione è sufficientemente vicina per le tue esigenze. Consulta la domanda la verifica della normalità è essenzialmente inutile? La distribuzione normale è unapprossimazione conveniente per molti scopi. Raramente è “corretta”, ma generalmente non deve essere esatta Corretto per essere utile. Mi aspettavo che la distribuzione normale fosse di solito un modello ragionevole per laltezza delle persone, ma richiederebbe un contesto più insolito affinché la distribuzione normale abbia senso come modello di età delle persone.

Se senti davvero il bisogno di eseguire un test di normalità, allora Kolmogorov-Smirnov probabilmente non è lopzione migliore: come notato nei commenti, sono disponibili test più potenti. Shapiro-Wilk ha un buon potere contro una serie di possibili alternative e ha il vantaggio di non aver bisogno di conoscere in anticipo la vera media e varianza .Ma attenzione che in piccoli campioni, deviazioni potenzialmente abbastanza grandi dalla normalità possono ancora non essere rilevate, mentre in campioni grandi, anche deviazioni molto piccole (e per scopi pratici, irrilevanti) possono rivelarsi “altamente significative” (basso p -value).

“Bell-shaped” non è “necessariamente normale

Sembra che ti sia stato detto di pensare ai dati “a forma di campana” – dati simmetrici che hanno un picco nel mezzo e che hanno una probabilità inferiore nelle code – come “normali”. Ma la distribuzione normale richiede una forma specifica al suo apice e alle sue code Ci sono altre distribuzioni con una forma simile a prima vista, che potresti anche avere caratterizzato come “a campana”, ma che non sono normali. A meno che tu “non abbia molti dati, è improbabile che tu sia in grado di distinguere che” assomiglia a questa distribuzione standard ma non come le altre “. E se hai molti dati, probabilmente scoprirai che non assomiglia affatto abbastanza a nessuna distribuzione “standard”! Ma in tal caso, per molti scopi, saresti altrettanto bene utilizzare il CDF empirico .

Galleria di

” distribuzioni

a forma di campana la distribuzione normale è la “forma a campana” a cui sei abituato; il Cauchy ha un picco più nitido e “più pesante” (cioè contenente più probabilità) code; la t distribuzione con 5 gradi di libertà si trova da qualche parte nel mezzo (la normale è t con df infinito e il Cauchy è t con 1 df, quindi ha senso); la distribuzione Laplace o doppia esponenziale ha pdf formato da due distribuzioni esponenziali ridimensionate consecutivamente, risultando in un picco più nitido rispetto alla distribuzione normale; la distribuzione Beta è abbastanza diversa – non “t hanno code che si dirigono verso gli infini ad esempio, ha invece tagli netti, ma può ancora avere la forma “gobba” nel mezzo. In realtà, giocando con i parametri, puoi anche ottenere una sorta di “gobba inclinata”, o anche una forma a “U” – la galleria sulla pagina Wikipedia collegata è abbastanza istruttiva sulla flessibilità di quella distribuzione. Infine, il distribuzione triangolare è unaltra semplice distribuzione su un supporto finito, spesso utilizzata nella modellazione del rischio.

È probabile che nessuna di queste distribuzioni descriva esattamente il tuo esistono dati e moltissime altre distribuzioni con forme simili, ma volevo affrontare il malinteso che “gobba nel mezzo e approssimativamente simmetrica significa normale”. Poiché ci sono limiti fisici sui dati sulletà, se i dati sulletà sono “gobba” nel mezzo, allora è ancora possibile che una distribuzione con supporto finito come la Beta o anche la distribuzione triangolare possa dimostrarsi un modello migliore di uno con code infinite come la normale. Nota che anche se i tuoi dati fossero realmente distribuiti normalmente, è ancora improbabile che il tuo istogramma assomigli alla classica “campana” a meno che la dimensione del tuo campione non sia abbastanza grande. Anche un campione da una distribuzione come Laplace, il cui pdf è chiaramente distinguibile da quello del normale a causa della sua cuspide, può produrre un istogramma che appare visivamente simile a una campana come farebbe un campione genuinamente normale.

Campioni normali e Laplace di vari campioni dimensioni

codice R

 par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)  

Risposta

Letà non può essere normale distribuzione Think log In pratica: non puoi avere unetà negativa, ma la distribuzione normale consente numeri negativi.

Ci sono molte distribuzioni a campana là fuori. Se qualcosa sembra a forma di campana non significa che debba essere normale.

Non cè modo di sapere con certezza nulla nelle statistiche, inclusa la distribuzione da cui provengono i dati. La forma è una indizio: la forma a campana è un argomento per la distribuzione normale. Inoltre, la comprensione dei dati è molto importante. La variabile come letà è spesso distorta, il che escluderebbe la normalità. Come accennato la distribuzione normale non ha limiti, ma a volte viene utilizzata per le variabili limitate. Ad esempio, se letà media è 20 anni e la deviazione standard è 1, la probabilità di età < 17 o> 23 è inferiore allo 0,3%. Quindi , è possibile che la distribuzione normale possa essere una buona approssimazione .

Puoi provare a eseguire un test statistico per la normalità come Jarque-Bera, che tiene conto dellasimmetria e della curtosi Il campione La curtosi può essere importante in alcuni casi.È molto importante in finanza, perché se modelli i dati con una distribuzione normale, ma i dati provengono in realtà da una distribuzione a coda di rondine, potresti finire per sottovalutare i rischi e i prezzi degli asset.

Sarebbe utile riportare alcune statistiche descrittive o un istogramma dei dati relativi a età e altezza, come media, varianza, asimmetria, curtosi.

Commenti

  • Grazie per il tuo aiuto, puoi dirmi come sapere che alcuni dati provengono dalla distribuzione normale, ad esempio nella tua risposta hai affermato che letà non può essere dalla distribuzione normale, che dire di altri dati come laltezza. Quali sono i criteri che Devo saperlo.Voglio saperne di più su questo perché sembra che abbia frainteso il concetto poiché sono nuovo a questo. Grazie ancora.
  • Tuttavia, la distribuzione normale spesso lo è utilizzato come approssimazione per variabili come letà. E non è un vero problema poiché puoi definire age_centred come e hai una variabile con media 0, con qualche deviazione standard, valori positivi e negativi. Quindi non vorrei ‘ essere così severo al riguardo.
  • Non puoi nemmeno avere unaltezza negativa per le persone, ma questo non ‘ t essere un ostacolo per me nel descrivere laltezza come normalmente distribuita se questa fosse una buona approssimazione. Del resto, perché usare qualsiasi distribuzione con limiti infiniti per misurazioni che possono essere solo finite? Come dice @Tim, è tutta una questione di approssimazioni accettabili dati i dati e dato lo scopo.
  • Sono daccordo che la distribuzione normale potrebbe essere una buona approssimazione per i dati limitati a volte, ma la domanda era se i dati provenissero dalla normalità o meno.
  • Letà dei diplomati delle scuole superiori poteva potenzialmente essere distribuita normalmente e assumere anche valori negativi se la media fosse centrata come menzionato da @Tim.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *