¿Qué significa que una estadística $ T (X) $ es suficiente para un parámetro?

Me está costando entender qué es lo que realmente nos ayuda a hacer una estadística suficiente.

Dice que

Dado $ X_1, X_2, …, X_n $ de alguna distribución, una estadística $ T (X) $ es suficiente para un parámetro $ \ theta $ si

$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .

Es decir, si conocemos $ T (X) $ , entonces no podemos obtener más información sobre el parámetro $ \ theta $ considerando otras funciones de los datos $ X_1, X_2, …, X_n $ .

Tengo dos preguntas:

  1. Me parece que el propósito de $ T (X) $ es hacer que podamos calcular el PDF de una distribución más fácilmente. Si al calcular el PDF se obtiene una medida de probabilidad , entonces ¿por qué se dice que no podemos " obtener más información sobre el parámetro $ θ $ "? En otras palabras, ¿por qué nos centramos en que $ T (X) $ nos diga algo sobre $ \ theta $ cuando el pdf arroja una medida de probabilidad, que no es» t $ \ theta $ ?

  2. Cuando dice: " no podemos obtener más información sobre el parámetro θ por considerando otras funciones de los datos $ X_1, X_2, …, X_n $ . ", ¿de qué otras funciones están hablando? ¿Es similar a decir que si dibujo al azar $ n $ muestras y busque $ T (X) $ , luego cualquier otro conjunto de $ n $ muestras que extraigo dan $ T (X) $ también?

Responder

Creo que la mejor manera de entender la suficiencia es considerar ejemplos familiares. Supongamos que lanzamos una moneda (no necesariamente justa), donde la probabilidad de obtener cara es algún parámetro desconocido $ p $. Entonces, los ensayos individuales son variables aleatorias IID Bernoulli (p), y podemos pensar en el resultado de $ n $ ensayos como un vector $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Nuestra intuición nos dice que para una gran cantidad de ensayos, una «buena» estimación del parámetro $ p $ es la estadística $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i . $$ Ahora piense en una situación en la que realice un experimento de este tipo. ¿Podrías estimar $ p $ igualmente bien si te informo de $ \ bar X $, en comparación con $ \ boldsymbol X $? Por supuesto. Esto es lo que hace la suficiencia por nosotros: la estadística $ T (\ boldsymbol X) = \ bar X $ es suficiente para $ p $ porque conserva toda la información que podemos obtener sobre $ p $ de la muestra original $ \ boldsymbol X $. (Para probar esta afirmación, sin embargo, se necesita más explicación).

Aquí hay un ejemplo menos trivial. Supongamos que tengo observaciones $ n $ IID tomadas de una distribución $ {\ rm Uniform} (0, \ theta) $, donde $ \ theta $ es el parámetro desconocido. ¿Cuál es una estadística suficiente para $ \ theta $? Por ejemplo, supongamos que tomo $ n = 5 $ muestras y obtengo $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Su estimación de $ \ theta $ claramente debe ser de al menos $ 5 $, ya que pudo observar ese valor. Pero ese es el mayor conocimiento que puede extraer al conocer la muestra real $ \ boldsymbol X $. Las otras observaciones no transmiten información adicional sobre $ \ theta $ una vez que haya observado $ X_4 = 5 $. Entonces, intuitivamente esperaríamos que la estadística $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ sea suficiente para $ \ theta $. De hecho, para probar esto, escribiríamos la densidad conjunta para $ \ boldsymbol X $ condicionada a $ \ theta $, y usaríamos el Teorema de factorización (pero omitiré esto en aras de mantener la discusión informal).

Tenga en cuenta que una estadística suficiente no tiene necesariamente un valor escalar. Porque puede que no sea posible lograr la reducción de datos de la muestra completa en un solo escalar. Esto comúnmente surge cuando queremos suficiencia para múltiples parámetros (que podemos considerar de manera equivalente como un único parámetro con valor vectorial). Por ejemplo, una estadística suficiente para una distribución normal con media desconocida $ \ mu $ y desviación estándar $ \ sigma $ es $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ right). $$ De hecho, estos son estimadores insesgados de la media y la desviación estándar. Podemos demostrar que esta es la máxima reducción de datos que se puede lograr.

Tenga en cuenta también que una estadística suficiente no es única. En el ejemplo del lanzamiento de una moneda, si le doy $ \ bar X $, eso le permitirá estimar $ p $. Pero si le di $ \ sum_ {i = 1} ^ n X_i $, aún puede estimar $ p $. De hecho, cualquier función uno a uno $ g $ de una estadística suficiente $ T (\ boldsymbol X) $ también es suficiente, ya que puede invertir $ g $ para recuperar $ T $. Entonces, para el ejemplo normal con media desconocida y desviación estándar, también podría haber afirmado que $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, es decir, la suma y la suma de las observaciones al cuadrado son suficientes para $ (\ mu, \ sigma) $. De hecho, la no unicidad de la suficiencia es aún más obvia, ya que $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ siempre es suficiente para cualquier parámetro (s): la muestra original siempre contiene tanta información como podamos recopilar .

En resumen, la suficiencia es una propiedad deseable de una estadística porque nos permite mostrar formalmente que una estadística logra algún tipo de reducción de datos. Una estadística suficiente que alcanza la máxima cantidad de reducción de datos se denomina estadística mínima suficiente.

Comentarios

  • ¿Qué ¿Cuál es la relación general entre $ T (X) $ y nuestro parámetro $ p $ o $ \ theta $? ¿$ T (X) $ siempre tiene que estar relacionado con el parámetro? Además, intuitivamente, ¿estoy en lo cierto al decir que el teorema de factorización funciona porque una vez que separamos el pdf para que sea el producto del parámetro / estadística suficiente y alguna función de x, podemos tomar registros y así obtener una estimación MLE? ¡gracias!
  • Una estadística suficiente no es necesariamente una estimación de los parámetros; p. ej., la muestra original no ' estima nada. Tienes que hacer algo para obtener un presupuesto. El único requisito es que una estadística suficiente no ' t descarte cualquier información que pueda obtener sobre los parámetros que estaban en la muestra original. El teorema de factorización muestra suficiencia porque expresa la PDF conjunta condicionada al parámetro de tal manera que la parte que permanece condicionada al parámetro es solo una función del estadístico suficiente.
  • Continuar, en ese sentido , cuando factorizas el PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, el factor que te da " información " sobre el parámetro es la parte condicional $ g (T (\ boldsymbol x) \ mid \ theta) $. El factor $ h (\ boldsymbol x) $ no está condicionado a $ \ theta $ por lo que no ' no proporciona información sobre él. Por lo tanto, todo lo que necesita saber es $ T (\ boldsymbol X) $, y nada más.
  • Entonces, cuando dicen que " $ T (X ) $ es suficiente para $ \ theta $ ", significa que puedo usar la parte condicional " $ g (T (X) | \ theta) $ para encontrar una estimación de $ \ theta $?
  • Observe que el único lugar donde la muestra aparece en $ g $ es cuando se expresa como la suma $ T (\ boldsymbol x) = \ sum x_i $, entonces esa es nuestra estadística suficiente. Ahora, hipotéticamente , si solo pudiéramos obtener un factor de la forma $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ sum x_i}, $$ entonces nuestra estadística suficiente sería con valores vectoriales: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *