Creé un histograma para la edad de los encuestados y logré obtener una curva en forma de campana muy agradable, de la cual concluí que la distribución es normal.
Luego ejecuté la prueba de normalidad en SPSS, con n = 169. El valor p (Sig.) de la prueba de Kolmogorov-Smirnov es menor que 0.05 y así los datos han violado el supuesto de normalidad.
¿Por qué la prueba indica que la distribución por edades no es normal, pero el histograma mostró una curva en forma de campana, que según tengo entendido es normal? ¿Qué resultado debo seguir?
Comentarios
- ¿Por qué estás probando la normalidad?
- Además de @Glen_b ‘ s excelente comentario y Aksakal ‘ s igualmente excelente respuesta , tenga en cuenta que incluso para distribuciones continuas, KS requiere que la media y la sd sean conocidas de antemano , no estimadas a partir de los datos. Esto esencialmente hace que la prueba K-S sea inútil. » La prueba de Kolmogorov-Smirnov es solo una curiosidad histórica. Nunca debe usarse. » (D ‘ Agostino in d ‘ Agostino & Stephens, eds., 1986). Si es así, usa Shapiro-Wilks en su lugar.
- @Stephan Kolassa Buen consejo, pero te refieres a Shapiro-Wilk. (Las sugerencias de MB Wilk y SS Wilks a menudo se confunden o combinan; el uso extraño de ‘ s como posesivo en inglés aquí también puede contribuir a la confusión, incluso para muchos que tienen inglés como su primer idioma.)
- Relacionado con el comentario de @StephanKolassa, ver ¿Es Shapiro-Wilk la mejor prueba de normalidad? … la respuesta es que no es ‘ t necesariamente, según la alternativa que ‘ le interese, pero a menudo es una buena opción .
Respuesta
Normalmente lo sabemos «s imposible que una variable esté exactamente distribuida normalmente …
La distribución normal tiene colas infinitamente largas que se extienden en cualquier dirección – Es poco probable que los datos se encuentren muy lejos en estos extremos, pero para una distribución normal verdadera tiene que ser físicamente posible. Para las edades, un modelo distribuido normalmente predecirá que hay una probabilidad distinta de cero de que los datos se encuentren 5 desviaciones estándar por encima o por debajo de la media, lo que correspondería a edades físicamente imposibles, como por debajo de 0 o por encima de 150 (aunque si observa una pirámide de población , no está claro por qué esperaría que la edad se distribuyera incluso aproximadamente normalmente en primer lugar). De manera similar, si tuviera datos de alturas, que intuitivamente podría seguir una distribución más «similar a la normal», solo podría ser verdaderamente normal si hubiera alguna posibilidad de alturas inferiores a 0 cm o superiores a 300 cm.
He visto ocasionalmente sugirió que podemos evadir este problema centrando los datos para que tengan una media de cero. De esa manera, son posibles las «edades centradas» tanto positivas como negativas. Pero aunque esto hace que los valores negativos sean físicamente plausibles e interpretables (los valores centrados negativos corresponden a valores reales que se encuentran por debajo de la media), no evita el problema de que el modelo normal producirá predicciones físicamente imposibles con una probabilidad distinta de cero, una vez que decodificar la «edad centrada» modelada de nuevo a una «edad real».
… entonces, ¿por qué molestarse en probar? Incluso si no es exacta, la normalidad aún puede ser un modelo útil
La pregunta importante no es realmente si los datos son exactamente normales; sabemos a priori que «Este es el caso, en la mayoría de las situaciones, incluso sin ejecutar una prueba de hipótesis, pero si la aproximación es lo suficientemente cercana para sus necesidades. Consulte la pregunta ¿Las pruebas de normalidad son esencialmente inútiles? La distribución normal es una aproximación conveniente para muchos propósitos. Rara vez es «correcta», pero generalmente no tiene que ser exacta ly correcto para ser útil. Esperaría que la distribución normal normalmente sea un modelo razonable para las alturas de las personas, pero requeriría un contexto más inusual para que la distribución normal tenga sentido como modelo de las edades de las personas.
Si realmente siente la necesidad de realizar una prueba de normalidad, entonces Kolmogorov-Smirnov probablemente no sea la mejor opción: como se indica en los comentarios, hay disponibles pruebas más poderosas. Shapiro-Wilk tiene un buen poder contra una variedad de posibles alternativas y tiene la ventaja de que no es necesario conocer la media real y la varianza de antemano .Pero tenga en cuenta que en muestras pequeñas, las desviaciones potencialmente bastante grandes de la normalidad aún pueden pasar desapercibidas, mientras que en muestras grandes, incluso las desviaciones muy pequeñas (y para fines prácticos, irrelevantes) de la normalidad pueden aparecer como «altamente significativas» (bajo p -valor).
«En forma de campana» no es necesariamente normal
Parece que le han dicho que piense en los datos «en forma de campana» (datos simétricos que tienen picos en el medio y que tienen una probabilidad menor en las colas) como «normales». Pero la distribución normal requiere una forma específica en su pico y colas. Hay otras distribuciones con una forma similar a primera vista, que también puede haber caracterizado como «en forma de campana», pero que no son normales. A menos que tenga una gran cantidad de datos, es poco probable que pueda distinguir que «se parece a esta distribución estándar pero no a las demás». Y si tiene una gran cantidad de datos, probablemente encontrará que no se parece del todo a ninguna distribución «lista para usar». Pero en ese caso, para muchos propósitos, sería mejor usar el CDF empírico .
distribuciones » en forma de campana
Las distribución normal es la «forma de campana» a la que está acostumbrado; el Cauchy tiene un pico más agudo y «más pesado» (es decir, que contiene más probabilidad) colas; la t distribución con 5 grados de libertad se encuentra en algún punto intermedio (lo normal es t con gl infinito y Cauchy es t con 1 gl, por lo que tiene sentido); la Laplace o distribución exponencial doble tiene pdf formado a partir de dos distribuciones exponenciales reescaladas consecutivas, lo que da como resultado un pico más agudo que la distribución normal; la distribución Beta es bastante diferente, no es así tienen colas que se dirigen a infini ty por ejemplo, en lugar de tener cortes afilados, pero aún puede tener la forma de «joroba» en el medio. En realidad, jugando con los parámetros, también puede obtener una especie de «joroba sesgada», o incluso una forma de «U»: la galería en la página de Wikipedia vinculada es bastante instructiva sobre la flexibilidad de esa distribución. Finalmente, el distribución triangular es otra distribución simple en un soporte finito, que se utiliza a menudo en el modelado de riesgos.
Es probable que ninguna de estas distribuciones describa exactamente su existen datos y muchas otras distribuciones con formas similares, pero quería abordar el concepto erróneo de que «joroba en el medio y aproximadamente simétrica significa normal». Dado que existen límites físicos en los datos de edad, si sus datos de edad están «jorobados» en el medio, entonces todavía es posible una distribución con soporte finito como la Beta o incluso una distribución triangular puede resultar un mejor modelo que una con colas infinitas como la normal. Tenga en cuenta que incluso si sus datos se distribuyeron normalmente, es poco probable que su histograma se parezca a la «campana» clásica a menos que el tamaño de la muestra sea bastante grande. Incluso una muestra de una distribución como Laplace, cuyo PDF se distingue claramente de eso de lo normal debido a su cúspide, puede producir un histograma que visualmente parece tan similar a una campana como lo haría una muestra genuinamente normal.
Código R
par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)
Respuesta
La edad no puede ser de lo normal distribución. Piense en el registro icamente: no puede tener una edad negativa, pero la distribución normal permite números negativos.
Hay muchas distribuciones en forma de campana por ahí. Si algo tiene forma de campana, no significa que tenga que ser normal.
No hay forma de saber con certeza nada en las estadísticas, incluida la distribución de la que provienen los datos. La forma es una pista: la forma de campana es un argumento para la distribución normal. Además, comprender los datos es muy importante. La variable como la edad a menudo está sesgada, lo que descartaría la normalidad. Como se mencionó, la distribución normal no tiene límites, pero a veces se usa para las variables limitadas. Por ejemplo, si la edad media es 20 años y la desviación estándar es 1, la probabilidad de que la edad < 17 o> 23 sea inferior al 0,3%. , es posible que la distribución normal sea una buena aproximación .
Puede intentar ejecutar una prueba estadística de normalidad como Jarque-Bera, que tiene en cuenta la asimetría y la curtosis de La curtosis puede ser importante en algunos casos.Es muy importante en finanzas, porque si modela los datos con distribución normal, pero los datos son de hecho de una distribución de cola gruesa, puede terminar subestimando los riesgos y precios de los activos.
Sería útil que informara algunas estadísticas descriptivas o un histograma de sus datos de edad y altura, como media, varianza, asimetría, curtosis.
Comentarios
- Gracias por su ayuda, ¿puede decirme cómo saber que ciertos datos provienen de la distribución normal? Por ejemplo, en su respuesta declaró que la edad no puede ser de la distribución normal, ¿qué pasa con otros datos como la altura? ¿Cuál es el criterio que Debo saber. Quiero aprender más sobre esto porque parece que he entendido mal el concepto ya que soy nuevo en esto. Gracias de nuevo.
- Sin embargo, la distribución normal a menudo es se usa como una aproximación para variables como la edad. Y no es realmente un problema, ya que puede definir
age_centred
como y tiene una variable con media 0, con alguna desviación estándar, valores positivos y negativos. Por lo tanto, no sería ‘ tan estricto al respecto. - Tampoco puede tener una estatura negativa para las personas, pero eso no sería ‘ t sería una barrera para mí para describir la altura como distribuida normalmente si esa era una buena aproximación. De hecho, ¿por qué usar cualquier distribución con límites infinitos para medidas que solo pueden ser finitas? Como dice @Tim, todo es una cuestión de aproximaciones aceptables dados los datos y dado el propósito.
- Estoy de acuerdo en que la distribución normal podría ser una buena aproximación para datos acotados a veces, pero la pregunta era si los datos son normales o no.
- La edad de los estudiantes del último año que se gradúan de la escuela secundaria podría potencialmente distribuirse normalmente y también tomar valores negativos si la media se centra como mencionó @Tim.