Estoy trabajando en un conjunto de datos de presencia / ausencia, con mi variable de respuesta «proporción de sitios donde X está presente». Se me ha pedido que proporcione desviaciones estándar junto con las proporciones medias. Sin embargo, me parece que la desviación estándar de un conjunto de datos binomial es una función polinomial de la proporción en sí y no otorga información adicional sobre la variabilidad de los datos subyacentes. Por ejemplo, si una proporción de los datos es 0,3, no debería importar si esa proporción se deriva de los datos de presencia / ausencia de 10, 100 o 100.000 sitios, el desarrollo estándar debería ser el mismo.
Cuando Hago un conjunto de datos de muestra y una proporción media de gráfico vs st dev, puedo modelarlo con una función polinomial de sexto orden con una R cuadrado de 1.00.
Entonces, ¿alguien puede confirmar mi sospecha? propiedad inherente de la proporción en un conjunto de datos binomial y, por lo tanto, no proporciona información adicional sobre el conjunto de datos del que proviene esa proporción.
Comentarios
- Debe ser capaz de modelar la SD aún mejor como la raíz cuadrada de una función cuadrática, porque para una proporción $ p $ en un conjunto de datos de tamaño $ n $, la SD del total es $ \ sqrt {np (1-p)} $ .
- @whuber: Creo que para la variable Binomial (es decir, para el recuento de éxitos), la desviación estándar es $ \ sqrt {np (1-p)} $ , pero para la proporción de éxitos, el personal La desviación ndard es $ \ sqrt {\ frac {p (1-p)} {n}} $, vea mi respuesta a esta pregunta.
- @fcoppens Eso es correcto, por eso me encargué de describa esto como la DE del total.
- @whuber: ok, entonces :-), ¿echó un vistazo a mi respuesta?
- Si el revisor de un manuscrito preguntó por esto , entonces tal vez el revisor se refirió a alguna medida de precisión para la proporción estimada como un error estándar. No ' t tenemos una ley que dice " ¿Siempre proporcionarás una medida de precisión para cada estimación? " Si el revisor realmente quiso decir una desviación estándar, entonces una respuesta diplomática sobre por qué los errores estándar son mejores podría funcionar.
Respuesta
Si tiene una variable aleatoria binomial $ X $, de tamaño $ N $, y con probabilidad de éxito $ p $, es decir, $ X \ sim Bin (N; p) $, entonces la media de X es $ Np $ y su varianza es $ Np (1-p) $, por lo que, como dice, la varianza es un polinomio de segundo grado en $ p $. Sin embargo, tenga en cuenta que la varianza también depende de $ N $! Esto último es importante para estimar $ p $:
Si observa 30 éxitos en 100, entonces la fracción de éxitos es 30/100, que es el número de éxitos dividido por el tamaño del Binomio, es decir, $ \ frac {X} {N} $.
Pero si $ X $ tiene una media de $ Np $, entonces $ \ frac {X} {N} $ tiene una media igual a la media de $ X $ dividida por $ N $ porque $ N $ es una constante. En otras palabras, $ \ frac {X} {N} $ significa $ \ frac {Np} {N} = p $. Esto implica que la fracción de éxitos observados es un estimador insesgado de la probabilidad $ p $.
Para calcular la varianza del estimador $ \ frac {X} {N} $, tenemos que dividir la varianza de $ X $ por $ N ^ 2 $ (varianza de a (variable dividida por a constante) es la (varianza de la variable) dividida por el cuadrado de la constante), por lo que la varianza del estimador es $ \ frac {Np (1-p)} {N ^ 2} = \ frac {p (1-p)} {N} $. La desviación estándar del estimador es la raíz cuadrada de la varianza, por lo que es $ \ sqrt {\ frac {p (1-p)} {N}} $.
Entonces, si lanza una moneda 100 veces y observa 49 caras, $ \ frac {49} {100} $ es un estimador de la probabilidad de lanzar cara con esa moneda y la desviación estándar de esta estimación es $ \ sqrt {\ frac {0.49 \ times (1-0.49)} {100}} $.
Si lanza la moneda 1000 veces y observa 490 caras, entonces estima la probabilidad de lanzar la cabeza nuevamente a $ 0.49 $ y la desviación estándar en $ \ sqrt {\ frac {0.49 \ times (1-0.49)} {1000}} $.
Obviamente, en el segundo caso, la desviación estándar es menor y, por lo tanto, el estimador es más preciso cuando aumenta el número de lanzamientos.
Puede concluir que, para una variable aleatoria Binomial, la varianza es un polinomio cuadrático en p, pero también depende de N y creo que el estándar La desviación contiene información adicional a la probabilidad de éxito.
De hecho, la distribución Binomial tiene dos parámetros y siempre necesitará al menos dos momentos (en este caso la media (= primer momento) y la desviación estándar (raíz cuadrada del segundo momento)) para identificarlo completamente.
P.S. Un desarrollo algo más general, también para poisson-binomial, se puede encontrar en mi respuesta a Estimar la precisión de una estimación en la distribución binomial de Poisson .
Respuesta
La familia de distribuciones de Bernouli está completamente parametrizada por un número, generalmente llamado $ p $. Entonces, cualquier estadística de población de una distribución de Bernouli debe ser alguna función del parámetro $ p $. ¡Esto no significa que esas estadísticas sean descriptivamente inútiles!
Por ejemplo, puedo describir completamente un cuadro dando su largo, ancho y alto, ¡pero el volumen sigue siendo una estadística útil!
Comentarios
- Espera, ¿es así? Don ' ¿me refiero a la distribución de Bernoulli? Siento que debería cambiarlo, pero tiene algunos votos a favor …
- Sí, ese ' es un error bastante comprensible, ya que Bernouli y binomio están tan estrechamente relacionados. Lo edité por ti.
Responder
Podrías pensar que tienes un punto si ya conocía el valor real del parámetro binomial $ p $ y que realmente estaba tratando con un experimento binomial (ensayos de Bernoulli independientes a $ p $ constantes). Con $ N $ casos, la varianza del número de éxitos en un experimento binomial es $ N p (1-p) $, y (ingenuamente) dividir por $ N $ para obtener la varianza en la proporción de éxitos daría un valor independiente de $ N $. Pero hay dos problemas con esto. Primero, si conociera el valor de $ p $, no necesitaría hacer este análisis. En segundo lugar, como señala @ f-coppens, este enfoque ingenuo para determinar la varianza en la proporción de éxito observado es incorrecto.
Lo que tiene es una estimación de $ p $ basada en una muestra de casos de $ N $. Los intervalos de confianza alrededor de su estimación de $ p $ dependen del valor de $ N $, mejorando aproximadamente con la raíz cuadrada de $ N $. Sospecho que ese es el punto que su inquisidor está tratando de hacer. Consulte la página de Wikipedia sobre la distribución binomial para obtener fórmulas para intervalos de confianza. Y esto ni siquiera entra en si todas sus muestras están modeladas por un solo parámetro $ p $.
Comentarios
- si divide una variable por una constante N, entonces debe dividir la varianza entre $ N ^ 2 $! Vea mi respuesta a esta pregunta.
- @ f-coppens Me corrigieron y edité mi respuesta en consecuencia. Gracias.