Si mi histograma muestra una curva en forma de campana, ¿puedo decir que mis datos se distribuyen normalmente?

Question

Creé un histograma para la edad de los encuestados y logré obtener una curva en forma de campana muy agradable, de la cual concluí que la distribución es normal.

Luego ejecuté la prueba de normalidad en SPSS, con n = 169. El valor p (Sig.) de la prueba de Kolmogorov-Smirnov es menor que 0.05 y así los datos han violado el supuesto de normalidad.

¿Por qué la prueba indica que la distribución por edades no es normal, pero el histograma mostró una curva en forma de campana, que según tengo entendido es normal? ¿Qué resultado debo seguir?

Comentarios

¿Por qué estás probando la normalidad?
Además de @Glen_b ‘ s excelente comentario y Aksakal ‘ s igualmente excelente respuesta , tenga en cuenta que incluso para distribuciones continuas, KS requiere que la media y la sd sean conocidas de antemano , no estimadas a partir de los datos. Esto esencialmente hace que la prueba K-S sea inútil. » La prueba de Kolmogorov-Smirnov es solo una curiosidad histórica. Nunca debe usarse. » (D ‘ Agostino in d ‘ Agostino & Stephens, eds., 1986). Si es así, usa Shapiro-Wilks en su lugar.
@Stephan Kolassa Buen consejo, pero te refieres a Shapiro-Wilk. (Las sugerencias de MB Wilk y SS Wilks a menudo se confunden o combinan; el uso extraño de ‘ s como posesivo en inglés aquí también puede contribuir a la confusión, incluso para muchos que tienen inglés como su primer idioma.)
Relacionado con el comentario de @StephanKolassa, ver ¿Es Shapiro-Wilk la mejor prueba de normalidad? … la respuesta es que no es ‘ t necesariamente, según la alternativa que ‘ le interese, pero a menudo es una buena opción .

Answer 1

Normalmente lo sabemos «s imposible que una variable esté exactamente distribuida normalmente …

La distribución normal tiene colas infinitamente largas que se extienden en cualquier dirección – Es poco probable que los datos se encuentren muy lejos en estos extremos, pero para una distribución normal verdadera tiene que ser físicamente posible. Para las edades, un modelo distribuido normalmente predecirá que hay una probabilidad distinta de cero de que los datos se encuentren 5 desviaciones estándar por encima o por debajo de la media, lo que correspondería a edades físicamente imposibles, como por debajo de 0 o por encima de 150 (aunque si observa una pirámide de población , no está claro por qué esperaría que la edad se distribuyera incluso aproximadamente normalmente en primer lugar). De manera similar, si tuviera datos de alturas, que intuitivamente podría seguir una distribución más «similar a la normal», solo podría ser verdaderamente normal si hubiera alguna posibilidad de alturas inferiores a 0 cm o superiores a 300 cm.

He visto ocasionalmente sugirió que podemos evadir este problema centrando los datos para que tengan una media de cero. De esa manera, son posibles las «edades centradas» tanto positivas como negativas. Pero aunque esto hace que los valores negativos sean físicamente plausibles e interpretables (los valores centrados negativos corresponden a valores reales que se encuentran por debajo de la media), no evita el problema de que el modelo normal producirá predicciones físicamente imposibles con una probabilidad distinta de cero, una vez que decodificar la «edad centrada» modelada de nuevo a una «edad real».

… entonces, ¿por qué molestarse en probar? Incluso si no es exacta, la normalidad aún puede ser un modelo útil

La pregunta importante no es realmente si los datos son exactamente normales; sabemos a priori que «Este es el caso, en la mayoría de las situaciones, incluso sin ejecutar una prueba de hipótesis, pero si la aproximación es lo suficientemente cercana para sus necesidades. Consulte la pregunta ¿Las pruebas de normalidad son esencialmente inútiles? La distribución normal es una aproximación conveniente para muchos propósitos. Rara vez es «correcta», pero generalmente no tiene que ser exacta ly correcto para ser útil. Esperaría que la distribución normal normalmente sea un modelo razonable para las alturas de las personas, pero requeriría un contexto más inusual para que la distribución normal tenga sentido como modelo de las edades de las personas.

Si realmente siente la necesidad de realizar una prueba de normalidad, entonces Kolmogorov-Smirnov probablemente no sea la mejor opción: como se indica en los comentarios, hay disponibles pruebas más poderosas. Shapiro-Wilk tiene un buen poder contra una variedad de posibles alternativas y tiene la ventaja de que no es necesario conocer la media real y la varianza de antemano .Pero tenga en cuenta que en muestras pequeñas, las desviaciones potencialmente bastante grandes de la normalidad aún pueden pasar desapercibidas, mientras que en muestras grandes, incluso las desviaciones muy pequeñas (y para fines prácticos, irrelevantes) de la normalidad pueden aparecer como «altamente significativas» (bajo p -valor).

«En forma de campana» no es necesariamente normal

Parece que le han dicho que piense en los datos «en forma de campana» (datos simétricos que tienen picos en el medio y que tienen una probabilidad menor en las colas) como «normales». Pero la distribución normal requiere una forma específica en su pico y colas. Hay otras distribuciones con una forma similar a primera vista, que también puede haber caracterizado como «en forma de campana», pero que no son normales. A menos que tenga una gran cantidad de datos, es poco probable que pueda distinguir que «se parece a esta distribución estándar pero no a las demás». Y si tiene una gran cantidad de datos, probablemente encontrará que no se parece del todo a ninguna distribución «lista para usar». Pero en ese caso, para muchos propósitos, sería mejor usar el CDF empírico .

Galería de

Answer 2

La edad no puede ser de lo normal distribución. Piense en el registro icamente: no puede tener una edad negativa, pero la distribución normal permite números negativos.

Hay muchas distribuciones en forma de campana por ahí. Si algo tiene forma de campana, no significa que tenga que ser normal.

No hay forma de saber con certeza nada en las estadísticas, incluida la distribución de la que provienen los datos. La forma es una pista: la forma de campana es un argumento para la distribución normal. Además, comprender los datos es muy importante. La variable como la edad a menudo está sesgada, lo que descartaría la normalidad. Como se mencionó, la distribución normal no tiene límites, pero a veces se usa para las variables limitadas. Por ejemplo, si la edad media es 20 años y la desviación estándar es 1, la probabilidad de que la edad < 17 o> 23 sea inferior al 0,3%. , es posible que la distribución normal sea una buena aproximación .

Puede intentar ejecutar una prueba estadística de normalidad como Jarque-Bera, que tiene en cuenta la asimetría y la curtosis de La curtosis puede ser importante en algunos casos.Es muy importante en finanzas, porque si modela los datos con distribución normal, pero los datos son de hecho de una distribución de cola gruesa, puede terminar subestimando los riesgos y precios de los activos.

Sería útil que informara algunas estadísticas descriptivas o un histograma de sus datos de edad y altura, como media, varianza, asimetría, curtosis.

Comentarios

Gracias por su ayuda, ¿puede decirme cómo saber que ciertos datos provienen de la distribución normal? Por ejemplo, en su respuesta declaró que la edad no puede ser de la distribución normal, ¿qué pasa con otros datos como la altura? ¿Cuál es el criterio que Debo saber. Quiero aprender más sobre esto porque parece que he entendido mal el concepto ya que soy nuevo en esto. Gracias de nuevo.
Sin embargo, la distribución normal a menudo es se usa como una aproximación para variables como la edad. Y no es realmente un problema, ya que puede definir age_centred como y tiene una variable con media 0, con alguna desviación estándar, valores positivos y negativos. Por lo tanto, no sería ‘ tan estricto al respecto.
Tampoco puede tener una estatura negativa para las personas, pero eso no sería ‘ t sería una barrera para mí para describir la altura como distribuida normalmente si esa era una buena aproximación. De hecho, ¿por qué usar cualquier distribución con límites infinitos para medidas que solo pueden ser finitas? Como dice @Tim, todo es una cuestión de aproximaciones aceptables dados los datos y dado el propósito.
Estoy de acuerdo en que la distribución normal podría ser una buena aproximación para datos acotados a veces, pero la pregunta era si los datos son normales o no.
La edad de los estudiantes del último año que se gradúan de la escuela secundaria podría potencialmente distribuirse normalmente y también tomar valores negativos si la media se centra como mencionó @Tim.

Si mi histograma muestra una curva en forma de campana, ¿puedo decir que mis datos se distribuyen normalmente?

Comentarios

Respuesta

Respuesta

Comentarios

Deja una respuesta Cancelar la respuesta