¿Qué significa cuando, a tres desviaciones estándar de la media, aterrizo fuera del valor mínimo o máximo?

Tengo un conjunto de datos con las siguientes características y parece que no puedo entenderlo. «Tres st.dev.s incluyen el 99.7% de los datos» es lo que me digo a mí mismo, pero parece estar redactado de manera incorrecta.

Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48 

Esto me dice que el 99,7% de los datos se encuentran entre 30 y 48, pero un 100% de los datos se encuentran entre 34 y 46 y eso no tiene sentido. ¿Significa simplemente que mi muestra no es representativa de la población total? Quiero decir, obviamente, no lo es, pero supongamos que no sé si existen humanos menores de 34 años y mayores de 46. Por cierto, esto es de la variable age del conjunto de datos de muestra de Stata nlsw88.dta.

He mirado esta pregunta , pero tampoco me ayuda a desatar mi nudo cerebral. lugar para preguntar.

EDITAR: Me acabo de dar cuenta de que son muchas preguntas. Considere la pregunta del encabezado como la que necesita una respuesta. El resto es básicamente mi proceso de pensamiento desordenado que se desarrolla.

Comentarios

  • El mínimo y el máximo son el mínimo y el máximo de la población que usted observó . La desviación estándar se calcula a partir de la población de muestra. Suponiendo entonces una población infinitamente grande con las mismas características que la muestra observada, y una distribución normal, el 99,7% de las personas estaría entre 30 y 48. El corolario es que su muestra inicial debería haber sido más grande para haber observado a alguien menos de 34 o mayor que 46.

Respuesta

“ Tres st.dev.s incluyen el 99,7% de los datos ”

Debe agregar algunas advertencias a dicha declaración.

Lo del 99,7% es un hecho sobre las distribuciones normales : el 99,7% de los valores de la población estará dentro de tres desviaciones estándar de la población de la media de la población.

densidad normal

En muestras grandes * de un distribución normal, generalmente será aproximadamente el caso: aproximadamente el 99.7% de los datos estarían dentro de tres desviaciones estándar de la muestra de la media de la muestra (si estuviera tomando muestras de una distribución normal, su muestra debe ser lo suficientemente grande como para que eso sea aproximadamente cierto; parece que hay un 73% de posibilidades de obtener $ 0.9973 \ pm 0.0010 $ con una muestra de ese tamaño).

* suponiendo un muestreo aleatorio

Pero no tiene una muestra de una distribución normal.

Si no pone algunas restricciones en la forma de la distribución, la proporción real dentro de 3 desviaciones estándar de la media puede ser alta o inferior.

densidad uniforme estandarizada $ \ qquad \ qquad ^ \ text { Ejemplo de una distribución con el 100% de la distribución dentro de 2 sds de media} $

La proporción de una distribución dentro de 3 stan las desviaciones de la media podrían ser tan bajas como 88,9%. Es posible que necesite más de 18 desviaciones estándar para obtener el 99,7%. Por otro lado, puede obtener más del 99,7% dentro de mucho menos de una desviación estándar. Así que la regla del 99,7% no es necesariamente de mucha ayuda a menos que fije un poco la forma de distribución.

Si relaja un poco sus expectativas (para ser sólo muy «aproximadamente» 99,7%), entonces la regla a veces es útil sin requerir normalidad, siempre y cuando tengamos en cuenta que no siempre va a funcionar en todas las situaciones, incluso aproximadamente.

Comentarios

Respuesta

La respuesta corta es que su muestra no ha seguido con precisión una distribución normal, por lo que sugiere que quizás deba volver a examinar sus suposiciones base, específicamente una que pueda aplicar herramientas diseñadas para trabajar con una población distribuida normalmente.

Solo dé vuelta a su pregunta al revés para la iluminación. Si su muestra se distribuyó normalmente, entonces se esperaría que un tamaño de muestra de ~ 2000 produzca 6 puntos de datos fuera del rango 30-48, en promedio. El suyo no, lo que indica una pregunta: «¿Cuál es el significado de esta desviación de lo normal para cualquier predicción que haga asumiendo que su población en general sigue una distribución normal?»

Entonces, la implicación más amplia de esta pequeña anomalía es que, aunque su muestra puede no diferir mucho de una distribución normal, algunos pronósticos asumiendo que representa una población distribuida normalmente más grande podrían ser inherentemente defectuosos y pueden justifica alguna calificación o investigación adicional. Sin embargo, estimar la probabilidad de esta desviación de lo normal, y los márgenes de error implícitos y la confiabilidad de los pronósticos resultantes está mucho más allá de mi nivel de capacidad, ¡aunque afortunadamente se explora en las muchas otras respuestas aquí! p> Pero claramente tiene la buena costumbre de analizar sus resultados en su totalidad, de cuestionar qué significan realmente sus resultados y si prueban su hipótesis original o no. Busque más anomalías reveladas en los datos, como curtosis y sesgo, para ver qué pistas revelan o quizás consideran que otras distribuciones representan mejor a su población.

Comentarios

  • Eso o simplemente por pura aleatoriedad, no había puntos de datos en el rango.

Respuesta

“Three st.dev.s ($ 3 \ sqrt {\ sigma ^ 2} $) incluyen el 99,7% de los datos ”se refiere a las distribuciones gaussianas. Para las distribuciones en general, la desigualdad de Chebyshev pone un límite inferior a la cantidad de masa de probabilidad dentro de $ k $ de la media. ¿Pero hay un límite superior?

Con una distribución de Bernoulli con $ p $ = .5, $ \ sigma $ es .5. La media $ \ mu $ también es .5, lo que significa que el 100% de la distribución está dentro de $ 1 \ sigma $ o $ \ mu $. ¿Qué pasa con números más pequeños de desviaciones estándar? ?

Nota: lo siguiente, por simplicidad, es un argumento con respecto a distribuciones con $ \ mu = 0 $. Su extensión a la distribución con $ \ mu $ arbitrarios es razonablemente trivial.

Dado cualquier $ \ varepsilon $ y $ M $ positivos, hay una distribución tal que tienes $ \ varepsilon / 2 $ masa de probabilidad $ \ leftarrow M $ y $ \ varepsilon / 2 $ masa de probabilidad $ \ gt M $. Es decir,

$ p (\ lvert {x} \ rvert \ gt M) = \ varepsilon $

En igualdad de condiciones, como $ M \ to \ infty $, luego $ \ sigma \ to \ infty $. Sin embargo, para cualquier $ N $ positivo fijo, una vez que $ M $ excede $ N $, la masa de probabilidad dentro de $ N $ de cero es siempre $ 1- \ varepsilon $, re sin importar $ M $. Por lo tanto, si miramos la distancia relativa desde cero (es decir, el número de desviaciones estándar, el valor es $ = \ frac {\ lvert {x} \ rvert} {\ sigma} $), entonces como $ M \ a \ infty $, tenemos $ n \ a \ infty $, donde $ n $ es el entero más grande de modo que «$ 1- \ varepsilon $ de la probabilidad está dentro de $ n \ sigma $ de $ \ mu $» es verdadero.

Esto muestra que para cualquier número positivo $ \ varepsilon $ y $ n $, existe una distribución tal que la probabilidad de ser más de $ n \ sigma $ desde cero es menor que $ \ varepsilon $. Entonces, por ejemplo, si desea una probabilidad del 99,999% de ser menor que .000001 $ \ sigma $ desde cero, hay una distribución que lo satisface.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *