Ce înseamnă că o statistică $ T (X) $ este suficientă pentru un parametru?

Îmi este greu să înțeleg ce ne ajută de fapt să facem o statistică suficientă.

Se spune că

Dat $ X_1, X_2, …, X_n $ dintr-o anumită distribuție, o statistică $ T (X) $ este suficient pentru un parametru $ \ theta $ dacă

$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .

Adică, dacă știți $ T (X) $ , atunci nu putem obține mai multe informații despre parametrul $ \ theta $ luând în considerare alte funcții ale datelor $ X_1, X_2, …, X_n $ .

Am două întrebări:

  1. Mi se pare că scopul $ T (X) $ este de a-l face astfel încât să putem calcula pdf-ul unei distribuții mai usor. Dacă calculul pdf produce o măsură de probabilitate , atunci de ce se spune că nu putem " obțineți mai multe informații despre parametrul $ θ $ "? Cu alte cuvinte, de ce ne concentrăm pe $ T (X) $ să ne spună ceva despre $ \ theta $ când pdf scuipă o măsură de probabilitate, care nu este” t $ \ theta $ ?

  2. Când scrie: " nu putem obține mai multe informații despre parametrul θ de luând în considerare alte funcții ale datelor $ X_1, X_2, …, X_n $ . ", despre ce alte funcții vorbesc? Este asemănător cu a spune că dacă desenez la întâmplare $ n $ eșantioane și găsiți $ T (X) $ , apoi orice alt set de $ n $ mostrele pe care le desenez dau și $ T (X) $ ?

Răspunde

Cred că cel mai bun mod de a înțelege suficiența este să ia în considerare exemple familiare. Să presupunem că aruncăm o monedă (nu neapărat corectă), unde probabilitatea de a obține capete este un parametru necunoscut $ p $. Apoi, studiile individuale sunt variabile aleatorii IID Bernoulli (p) și ne putem gândi la rezultatul încercărilor $ n $ ca fiind un vector $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Intuiția noastră ne spune că pentru un număr mare de încercări, o estimare „bună” a parametrului $ p $ este statistica $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i . $$ Acum gândiți-vă la o situație în care fac un astfel de experiment. Ați putea estima la fel de bine $ p $ dacă vă informez despre $ \ bar X $, comparativ cu $ \ boldsymbol X $? Sigur. Aceasta este ceea ce face suficient pentru noi: statistica $ T (\ boldsymbol X) = \ bar X $ este suficient pentru $ p $ deoarece păstrează toate informațiile pe care le putem obține aproximativ $ p $ din eșantion original $ \ boldsymbol X $. (Pentru a dovedi această afirmație, totuși, are nevoie de mai multe explicații.)

Iată un exemplu mai puțin banal. Să presupunem că am observații $ n $ IID luate dintr-o distribuție $ {\ rm Uniform} (0, \ theta) $, unde $ \ theta $ este parametrul necunoscut. Ce este o statistică suficientă pentru $ \ theta $? De exemplu, să presupunem că iau $ n = 5 $ mostre și obțin $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Estimarea dvs. pentru $ \ theta $ trebuie să fie în mod clar de cel puțin 5 $, deoarece ați putut observa o astfel de valoare. Dar aceasta este cea mai mare cunoaștere pe care o puteți extrage din cunoașterea eșantionului real $ \ boldsymbol X $. Celelalte observații nu transmit informații suplimentare despre $ \ theta $ după ce ați observat $ X_4 = 5 $. Deci, ne-am aștepta intuitiv că statistica $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ este suficientă pentru $ \ theta $. Într-adevăr, pentru a demonstra acest lucru, am scrie densitatea comună pentru $ \ boldsymbol X $ condiționată de $ \ theta $ și am folosi teorema factorizării (dar voi omite acest lucru pentru a menține discuția informală).

Rețineți că o statistică suficientă nu este neapărat o valoare scalară. Pentru că este posibil să nu fie posibil să se realizeze reducerea datelor din eșantionul complet într-un singur scalar. Acest lucru apare de obicei atunci când dorim suficientă pentru mai mulți parametri (pe care îi putem considera în mod echivalent ca un singur parametru cu valoare vectorială). De exemplu, o statistică suficientă pentru o distribuție normală cu media necunoscută $ \ mu $ și deviația standard $ \ sigma $ este $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ right). $$ De fapt, acestea sunt estimatori imparțiali ai abaterii medii și standard. Putem arăta că aceasta este reducerea maximă a datelor care poate fi realizată.

Rețineți, de asemenea, că o statistică suficientă nu este unică. În exemplul aruncării de monede, dacă vă dau $ \ bar X $, acest lucru vă va permite să estimați $ p $. Dar dacă ți-am dat $ \ sum_ {i = 1} ^ n X_i $, poți totuși estima $ p $. De fapt, orice funcție individuală $ g $ dintr-o statistică suficientă $ T (\ boldsymbol X) $ este de asemenea suficientă, deoarece puteți inversa $ g $ pentru a recupera $ T $. Deci, pentru exemplul normal cu medie și deviație standard necunoscute, aș fi putut susține că $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, adică suma și suma observațiilor pătrate sunt suficiente pentru $ (\ mu, \ sigma) $. Într-adevăr, non-unicitatea suficienței este și mai evidentă, pentru $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ este întotdeauna suficient pentru orice parametru: eșantionul original conține întotdeauna cât mai multe informații pe care le putem aduna .

În rezumat, suficiența este o proprietate dorită a unei statistici, deoarece ne permite să arătăm formal că o statistică realizează un fel de reducere a datelor. O statistică suficientă care atinge cantitatea maximă de reducere a datelor se numește statistică minimă suficientă.

Comentarii

  • Ce ar fi fie relația generală dintre $ T (X) $ și parametrul nostru $ p $ sau $ \ theta $? $ T (X) $ trebuie întotdeauna să fie legat de parametru? De asemenea, intuitiv, sunt corect să spun că teorema factorizării funcționează deoarece odată ce separăm pdf astfel încât să fie produsul parametrului / statului suficient și a unei funcții a lui x, putem lua jurnale și astfel putem obține o estimare MLE? mulțumesc!
  • O statistică suficientă nu este neapărat o estimare a parametrilor; de exemplu, eșantionul original nu ' estimează nimic. Trebuie să faci ceva pentru a obține o estimare. Singura cerință este ca o statistică suficientă să nu elimine ' orice informații pe care le-ați putea obține despre parametrii care au fost în eșantionul original. Teorema factorizării arată suficientă deoarece exprimă PDF-ul comun condiționat de parametru în așa fel încât partea care rămâne condiționată de parametru să fie doar o funcție a statisticii suficiente.
  • Pentru a continua, în acest sens , când calculați PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, factorul care vă oferă " informații " despre parametru este partea condițională $ g (T (\ boldsymbol x) \ mid \ theta) $. Factorul $ h (\ boldsymbol x) $ nu este condiționat de $ \ theta $, deci nu ' nu furnizează informații despre acesta. Astfel, tot ce trebuie să știți este $ T (\ boldsymbol X) $, și nu orice altceva.
  • Deci, atunci când spun că " $ T (X ) $ este suficient pentru $ \ theta $ ", înseamnă că pot folosi partea condițională " $ g (T (X) | \ theta) $ pentru a găsi o estimare de $ \ theta $?
  • Observați că singurul loc în care eșantionul apare în $ g $ este atunci când este exprimat ca suma $ T (\ boldsymbol x) = \ sum x_i $, deci aceasta este statistica noastră suficientă. Acum, ipotetic , dacă am putea obține doar un factor de forma $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ sum x_i}, $$ atunci statistica noastră suficientă ar fi vectorială: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *