Parece que esta distribución puede estar sesgada a la derecha y ser bimodal. ¿O está simplemente sesgado a la derecha?
Comentarios
- Primero que nada, eche un vistazo a esta respuesta .
- ¿Solo tiene el histograma para pasar?
Responder
Si el histograma fuera realmente la distribución de la que se extrajeron los datos (entonces sería una uniforme por partes, claramente), se podría decir que era sesgada a la derecha (prácticamente en cualquier medida razonable) y multimodal, ya que claramente hay más de dos modos.
Pero presumiblemente estamos tratando de usar el histograma para inferir algo sobre la distribución de la población.
Aquí tenemos dos problemas.
-
El habitual de decir lo que vemos en una muestra a partir de la variación de muestreo («ruido»). El muestreo de una población que no está sesgada puede dar como resultado una muestra que ciertamente parece sesgada, y el muestreo de una población que es unimodal puede dar como resultado una muestra que puede parecer tener más de una moda.
-
La apariencia del histograma a veces puede ser fuertemente afectada por la elección del ancho del contenedor e incluso del origen del contenedor . El hecho de que el histograma de la pregunta tenga muchos contenedores ayuda a mitigar tanto el alcance como la frecuencia de este tipo de problema, pero aún puede ocurrir.
Si tiene la muestra original, puede evitar el segundo problema en mayor medida si considera más de una pantalla; no solo se pueden hacer histogramas para algunos anchos de contenedor y orígenes de contenedor diferentes, sino que también se pueden usar otras pantallas: gráficos QQ, empíricos cdfs y así sucesivamente. (Es un poco más difícil aprender a extraer la información de ellos, pero no están tan sujetos a ese tipo de problemas).
Dicho esto, dado el gran tamaño de la muestra y asumiendo su muestra es una muestra aleatoria de alguna población, estaríamos bastante seguros al concluir que la distribución de la cual se extrajo dicha muestra sería sesgada a la derecha. La impresión de bimodalidad es relativamente más débil (en el sentido de que razonablemente podríamos ver que eso sucede con una población que en realidad no es bimodal, al menos en una muestra más pequeña), pero aún mencionaría la aparición de bimodalidad en la pantalla.
Ignorando por completo el problema en 2. por el momento, podemos tener una idea de si ese histograma podría ocurrir con una población unimodal al considerar una distribución solo unimodal que sea cercana a lo que se observa y al ver si puede producir algo tan lejos de unimodal como lo que observa en la muestra.
Para simplificar la situación, considere la región entre 67 y 133 * (donde he incluido mis estimaciones de los recuentos de bin para los contenedores relevantes en esa región):
A ambos lados de esto, en varios bins antes y después de este segmento, la densidad está disminuyendo bastante claramente; la pregunta es, ¿podemos razonablemente observar ¿Esta pieza es una muestra aleatoria de un segmento no creciente de una distribución?
* Tenga en cuenta que el impacto de elegir una pieza en particular y centrarse en esta pieza en particular se ignora aquí, pero esto no es algo que realmente debería ignorarse (esto definitivamente conlleva el problema de «mirar los datos», por ejemplo, ¿deberíamos haber incluido realmente el siguiente bin después del último que incluimos?). Sin embargo, voy a adelantarme de todos modos para dar la sensación de un análisis simple que daría una idea aproximada de si una densidad que no aumenta es compatible con los datos (condicional a la ubicación del contenedor). Tenga en cuenta que «seleccionar la parte extraña para mirar» de esta manera generalmente aumentará la posibilidad de encontrar algo «significativo», por lo que si no encontramos nada, hay muy pocas razones para decir que no pudo «. t sea unimodal.
Primero, para ver si esto es consistente con una muestra de una distribución no creciente, necesitamos una medida de aumento. Propongo simplemente agregar las diferencias en los recuentos de contenedores ($ b_i-b_ {i -1} $) cada vez que aumentan (y cuentan 0 en caso contrario), es decir, $ U = \ sum_i (b_i-b_ {i-1}) _ + $. Entonces, para los recuentos de contenedores de 369, 373, 413, 375, 382 , 375 el total de los saltos ascendentes es U = 4 + 40 + 0 + 7 + 0 = 51.
El «mejor» caso no creciente para producir nuestra pantalla será el uniforme.
El recuento total en esta región es 2287 y hay 6 contenedores.
¿Cuál es la probabilidad de que una muestra de tamaño 2287 de seis categorías igualmente probables produzca un total saltar, $ U $ de al menos 51? Eso es algo que se encuentra fácilmente mediante simulación.
Intentando eso en R:
res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349
Entonces, esto sugiere que en una sección uniforme de una densidad, podría ver fácilmente esa cantidad de aumento a partir de ese tamaño de muestra; aproximadamente la mitad del tiempo aumentaría al menos tanto si fuera uniforme.
Por supuesto, podríamos haber elegido otra medida, pero eso es suficiente para mí. Considero que es consistente con la uniformidad en esa sección y, por lo tanto, el histograma no es inconsistente con una muestra aleatoria de una distribución unimodal general.
[Editar: para completar, luego volví y miré un par de otros probar las estadísticas para ver si haría mucha diferencia, pero tampoco indicaron nada]
Eso no es suficiente para declarar que es unimodal, por supuesto. Simplemente no podemos decir que «no es unimodal.
Así que lo describiría como aparentemente sesgado hacia la derecha. Si debe hablar sobre si la población tiene o no más de un modo, sólo iría tan lejos como para decir que existe alguna posibilidad de un segundo modo en algún lugar cercano a 100, pero es difícil concluir algo de esto. mostrar.
Comentarios
- Wow, increíble. ¡Esto aclara mucho las cosas! ¡Gracias!
- " Eso ' no es suficiente para declararlo como X, por supuesto. Solo podemos ' t decir que ' no es Y. " – Estadísticas en pocas palabras.