Faccio fatica a capire cosa ci aiuti a fare una statistica sufficiente.
Dice che
Dato $ X_1, X_2, …, X_n $ da una distribuzione, una statistica $ T (X) $ è sufficiente per un parametro $ \ theta $ se
$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .
Significa, se noi conoscere $ T (X) $ , quindi non possiamo ottenere ulteriori informazioni sul parametro $ \ theta $ considerando altre funzioni dei dati $ X_1, X_2, …, X_n $ .
Ho due domande:
-
Mi sembra che lo scopo di $ T (X) $ sia di fare in modo che possiamo calcolare il pdf di una distribuzione più facilmente. Se il calcolo del pdf produce una misura di probabilità , perché si dice che non possiamo " ottenere ulteriori informazioni sul parametro $ θ $ "? In altre parole, perché ci concentriamo su $ T (X) $ che ci dice qualcosa su $ \ theta $ quando il pdf emette una misura di probabilità, che non è” t $ \ theta $ ?
-
Quando dice: " non possiamo ottenere ulteriori informazioni sul parametro θ da considerando altre funzioni dei dati $ X_1, X_2, …, X_n $ . ", di quali altre funzioni stanno parlando? È simile a dire che se disegno a caso $ n $ campioni e trova $ T (X) $ , quindi qualsiasi altro insieme di $ n $ campioni che disegno danno anche $ T (X) $ ?
Rispondi
Penso che il modo migliore per comprendere la sufficienza sia considerare esempi familiari. Supponiamo di lanciare una moneta (non necessariamente equa), dove la probabilità di ottenere testa è un parametro sconosciuto $ p $. Quindi le prove individuali sono variabili casuali IID Bernoulli (p) e possiamo pensare al risultato di $ n $ prove come un vettore $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. La nostra intuizione ci dice che per un gran numero di prove, una stima “buona” del parametro $ p $ è la statistica $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i . $$ Ora pensa a una situazione in cui eseguo un simile esperimento. Potresti stimare $ p $ ugualmente bene se ti informassi di $ \ bar X $, rispetto a $ \ boldsymbol X $? Sicuro. Questo è ciò che la sufficienza fa per noi: la statistica $ T (\ boldsymbol X) = \ bar X $ è sufficiente per $ p $ perché conserva tutte le informazioni che possiamo ottenere su $ p $ dal campione originale $ \ grassetto X $. (Per provare questa affermazione, tuttavia, sono necessarie ulteriori spiegazioni.)
Ecco un esempio meno banale. Supponiamo di avere $ n $ IID osservazioni prese da una distribuzione $ {\ rm Uniform} (0, \ theta) $, dove $ \ theta $ è il parametro sconosciuto. Qual è una statistica sufficiente per $ \ theta $? Ad esempio, supponiamo di prendere $ n = 5 $ campioni e di ottenere $ \ grassetto X = (3, 1, 4, 5, 4) $. La tua stima per $ \ theta $ deve chiaramente essere di almeno $ 5 $, poiché sei stato in grado di osservare tale valore. Ma questa è la maggior parte delle conoscenze che puoi estrarre conoscendo il campione reale $ \ grassetto X $. Le altre osservazioni non forniscono informazioni aggiuntive su $ \ theta $ dopo aver osservato $ X_4 = 5 $. Quindi, ci aspetteremmo intuitivamente che la statistica $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ sia sufficiente per $ \ theta $. In effetti, per dimostrarlo, scriveremmo la densità congiunta per $ \ boldsymbol X $ condizionata a $ \ theta $, e useremo il Teorema di fattorizzazione (ma lo ometterò nellinteresse di mantenere la discussione informale).
Nota che una statistica sufficiente non è necessariamente valutata a livello scalare. Perché potrebbe non essere possibile ottenere la riduzione dei dati dellintero campione in un singolo scalare. Ciò si verifica comunemente quando vogliamo la sufficienza per più parametri (che possiamo considerare in modo equivalente come un singolo parametro a valori vettoriali). Ad esempio, una statistica sufficiente per una distribuzione Normale con media sconosciuta $ \ mu $ e deviazione standard $ \ sigma $ è $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ right). $$ In effetti, questi sono stimatori imparziali della media e della deviazione standard. Possiamo dimostrare che questa è la massima riduzione dei dati che si può ottenere.
Nota anche che una statistica sufficiente non è univoca. Nellesempio del lancio di una moneta, se ti do $ \ bar X $, questo ti permetterà di stimare $ p $. Ma se ti dessi $ \ sum_ {i = 1} ^ n X_i $, puoi ancora stimare $ p $. Infatti, qualsiasi funzione uno-a-uno $ g $ di una statistica sufficiente $ T (\ boldsymbol X) $ è anche sufficiente, poiché puoi invertire $ g $ per recuperare $ T $. Quindi, per lesempio normale con media sconosciuta e deviazione standard, avrei anche potuto affermare che $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, cioè, la somma e la somma delle osservazioni al quadrato, sono sufficienti per $ (\ mu, \ sigma) $. In effetti, la non unicità della sufficienza è ancora più ovvia, poiché $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ è sempre sufficiente per qualsiasi parametro / i: il campione originale contiene sempre quante più informazioni possiamo raccogliere .
In sintesi, la sufficienza è una proprietà desiderabile di una statistica perché ci consente di dimostrare formalmente che una statistica raggiunge un qualche tipo di riduzione dei dati. Una statistica sufficiente che raggiunge la quantità massima di riduzione dei dati è chiamata statistica sufficiente minima.
Commenti
- Cosa sarebbe essere la relazione generale tra $ T (X) $ e il nostro parametro $ p $ o $ \ theta $? $ T (X) $ deve sempre essere correlato al parametro? Inoltre, intuitivamente, ho ragione a dire che il teorema di fattorizzazione funziona perché una volta separato il pdf in modo che sia il prodotto del parametro / statistica sufficiente e una funzione di x, possiamo prendere log e quindi ottenere una stima MLE? grazie!
- Una statistica sufficiente non è necessariamente una stima dei parametri; ad esempio, il campione originale non ' stima nulla. Devi fare qualcosa per ottenere una stima. Lunico requisito è che una statistica sufficiente non ' scarti le informazioni che potresti ottenere sui parametri che erano nel campione originale. Il teorema di fattorizzazione mostra la sufficienza perché esprime il PDF congiunto condizionato al parametro in modo tale che la parte che rimane condizionata al parametro sia solo una funzione della statistica sufficiente.
- Continuare, in quel senso , quando si calcola il PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, il fattore che restituisce " le informazioni " sul parametro sono la parte condizionale $ g (T (\ boldsymbol x) \ mid \ theta) $. Il fattore $ h (\ boldsymbol x) $ non è condizionato a $ \ theta $, quindi ' non fornisce informazioni al riguardo. Pertanto, tutto ciò che devi sapere è $ T (\ boldsymbol X) $ e non nientaltro.
- Quindi, quando dicono che " $ T (X ) $ è sufficiente per $ \ theta $ ", significa che posso usare la parte condizionale " $ g (T (X) | \ theta) $ per trovare una stima di $ \ theta $?
- Notare che lunico punto in cui il campione appare in $ g $ è quando è espresso come somma $ T (\ boldsymbol x) = \ sum x_i $, quindi questa è la nostra statistica sufficiente. Ora, ipoteticamente , se solo fossimo in grado di ottenere un fattore della forma $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ sum x_i}, $$ allora la nostra statistica sufficiente sarebbe a valori vettoriali: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.