Estou tendo dificuldade em entender o que uma estatística suficiente realmente nos ajuda a fazer.
Diz que
Dado $ X_1, X_2, …, X_n $ de alguma distribuição, uma estatística $ T (X) $ é suficiente para um parâmetro $ \ theta $ if
$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .
Ou seja, se nós sabemos $ T (X) $ , então não podemos obter mais informações sobre o parâmetro $ \ theta $ considerando outras funções dos dados $ X_1, X_2, …, X_n $ .
Tenho duas perguntas:
-
Parece-me que o propósito de $ T (X) $ é fazer com que possamos calcular o pdf de uma distribuição mais facilmente. Se o cálculo do pdf resulta em uma medida de probabilidade , então por que se diz que não podemos " obter mais informações sobre o parâmetro $ θ $ "? Em outras palavras, por que estamos focados em $ T (X) $ nos dizendo algo sobre $ \ theta $ quando o pdf apresenta uma medida de probabilidade, que não é” t $ \ theta $ ?
-
Quando diz: " não podemos obter mais informações sobre o parâmetro θ por considerando outras funções dos dados $ X_1, X_2, …, X_n $ . ", de que outras funções eles estão falando? Isso é o mesmo que dizer que se eu desenhar aleatoriamente $ n $ amostras e encontre $ T (X) $ , depois qualquer outro conjunto de $ n $ amostras que desenhei e também $ T (X) $ ?
Resposta
Acho que a melhor maneira de entender a suficiência é considerar exemplos familiares. Suponha que joguemos uma moeda (não necessariamente justa), onde a probabilidade de obter cara é algum parâmetro desconhecido $ p $. Então, as tentativas individuais são variáveis aleatórias IID Bernoulli (p), e podemos pensar no resultado de $ n $ tentativas como sendo um vetor $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Nossa intuição nos diz que para um grande número de tentativas, uma estimativa “boa” do parâmetro $ p $ é a estatística $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i . $$ Agora pense em uma situação em que eu realizo tal experimento. Você poderia estimar $ p $ igualmente bem se eu informá-lo de $ \ bar X $, em comparação com $ \ boldsymbol X $? Certo. Isso é o que a suficiência faz por nós: a estatística $ T (\ boldsymbol X) = \ bar X $ é suficiente para $ p $ porque preserva todas as informações que podemos obter sobre $ p $ do amostra original $ \ boldsymbol X $. (Para provar esta afirmação, entretanto, precisa de mais explicação.)
Aqui está um exemplo menos trivial. Suponha que eu tenha $ n $ observações IID tiradas de uma distribuição $ {\ rm Uniform} (0, \ theta) $, onde $ \ theta $ é o parâmetro desconhecido. Qual é uma estatística suficiente para $ \ theta $? Por exemplo, suponha que eu pegue $ n = 5 $ samples e obtenho $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Sua estimativa de $ \ theta $ claramente deve ser de pelo menos $ 5 $, já que você foi capaz de observar tal valor. Mas esse é o máximo de conhecimento que você pode extrair conhecendo a amostra real $ \ boldsymbol X $. As outras observações não fornecem informações adicionais sobre $ \ theta $, uma vez que você observou $ X_4 = 5 $. Portanto, esperaríamos intuitivamente que a estatística $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ seja suficiente para $ \ theta $. De fato, para provar isso, escreveríamos a densidade conjunta de $ \ boldsymbol X $ condicionada em $ \ theta $ e usaríamos o Teorema de Fatoração (mas irei omitir isso para manter a discussão informal).
Observe que uma estatística suficiente não tem necessariamente valor escalar. Pois pode não ser possível atingir a redução de dados da amostra completa em um único escalar. Isso geralmente surge quando queremos suficiência para vários parâmetros (que podemos considerar de maneira equivalente como um único parâmetro de valor vetorial). Por exemplo, uma estatística suficiente para uma distribuição normal com média desconhecida $ \ mu $ e desvio padrão $ \ sigma $ é $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ direita). $$ Na verdade, estes são estimadores imparciais da média e do desvio padrão. Podemos mostrar que esta é a redução máxima de dados que pode ser alcançada.
Observe também que uma estatística suficiente não é única. No exemplo do sorteio, se eu der $ \ bar X $, isso permitirá que você estime $ p $. Mas se eu der $ \ sum_ {i = 1} ^ n X_i $, você ainda pode estimar $ p $. Na verdade, qualquer função um-para-um $ g $ de uma estatística suficiente $ T (\ boldsymbol X) $ também é suficiente, já que você pode inverter $ g $ para recuperar $ T $. Portanto, para o exemplo normal com média e desvio padrão desconhecidos, eu também poderia ter afirmado que $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, ou seja, a soma e a soma das observações quadradas são suficientes para $ (\ mu, \ sigma) $. Na verdade, a não unicidade da suficiência é ainda mais óbvia, para $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ é sempre suficiente para qualquer parâmetro (s): a amostra original sempre contém tanta informação quanto podemos reunir .
Em resumo, a suficiência é uma propriedade desejável de uma estatística porque nos permite mostrar formalmente que uma estatística atinge algum tipo de redução de dados. Uma estatística suficiente que atinge o valor máximo de redução de dados é chamada de estatística suficiente mínima.
Comentários
- O que seria ser a relação geral entre $ T (X) $ e nosso parâmetro $ p $ ou $ \ theta $? $ T (X) $ sempre tem que estar relacionado ao parâmetro? Além disso, intuitivamente, estou correto em dizer que o teorema da fatoração funciona porque, uma vez que separamos o pdf para que seja o produto do parâmetro / estatística suficiente e alguma função de x, podemos tomar logs e, assim, obter uma estimativa MLE? obrigado!
- Uma estatística suficiente não é necessariamente uma estimativa do (s) parâmetro (s); por exemplo, a amostra original não ' t estima nada. Você tem que fazer algo para obter uma estimativa. O único requisito é que uma estatística suficiente não ' descarta qualquer informação que você possa obter sobre o (s) parâmetro (s) que estavam na amostra original. O teorema da fatoração mostra suficiência porque expressa a PDF conjunta condicionada ao parâmetro de tal forma que a parte que permanece condicional ao parâmetro é apenas uma função da estatística suficiente.
- Continuar, nesse sentido , ao fatorar o PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, o fator que fornece " informação " sobre o parâmetro é a parte condicional $ g (T (\ boldsymbol x) \ mid \ theta) $. O fator $ h (\ boldsymbol x) $ não é condicional a $ \ theta $, então não ' fornece informações sobre ele. Assim, tudo que você precisa saber é $ T (\ boldsymbol X) $, e nada mais.
- Então, quando eles dizem que " $ T (X ) $ é suficiente para $ \ theta $ ", significa que posso usar a parte condicional " $ g (T (X) | \ theta) $ para encontrar uma estimativa de $ \ theta $?
- Observe que o único lugar onde a amostra aparece em $ g $ é quando ela é expressa como a soma $ T (\ boldsymbol x) = \ sum x_i $, então essa é nossa estatística suficiente. Agora, hipoteticamente , se apenas pudéssemos obter um fator da forma $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ sum x_i}, $$ então nossa estatística suficiente teria valor de vetor: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.