Mitä tarkoittaa, että tilasto $ T (X) $ riittää parametrille?

Minulla on vaikeuksia ymmärtää, mitä riittävä tilasto todella auttaa meitä tekemään.

Siinä sanotaan, että

Annetaan $ X_1, X_2, …, X_n $ jostakin jakelusta, tilasto $ T (X) $ riittää parametrille $ \ theta $ , jos

$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .

Tarkoitus, jos tiedä $ T (X) $ , niin emme voi saada lisätietoja parametrista $ \ theta $ tarkastelemalla datan muita toimintoja $ X_1, X_2, …, X_n $ .

Minulla on kaksi kysymystä:

  1. Minusta näyttää siltä, että $ T (X) $ on tarkoitus tehdä se niin, että voimme laskea jakelun pdf: n helpommin. Jos pdf: n laskeminen tuottaa todennäköisyysmittauksen , miksi sanotaan, ettemme voi " saada lisätietoja parametrista $ θ $ "? Toisin sanoen, miksi keskitymme siihen, että $ T (X) $ kertoo meille jotain aiheesta $ \ theta $ , kun pdf sylkii todennäköisyysmittauksen, joka ei ole” t $ \ theta $ ?

  2. Kun sanotaan: ", emme voi saada lisätietoja parametrista θ tietojen muut toiminnot huomioon ottaen $ X_1, X_2, …, X_n $ . ", mitä muita toimintoja he puhuvat? Onko tämä samanlainen kuin sanomalla, että jos piirrän satunnaisesti $ n $ näytteitä ja etsi $ T (X) $ , sitten mikä tahansa muu joukko $ n Piirretyt $ -näytteet antavat $ T (X) $ myös?

Vastaa

Mielestäni paras tapa ymmärtää riittävyys on tarkastella tuttuja esimerkkejä. Oletetaan, että käännämme (ei välttämättä reilu) kolikon, jossa päiden saamisen todennäköisyys on jokin tuntematon parametri $ p $. Tällöin yksittäiset kokeet ovat IID Bernoulli (p) -satunnaismuuttujia, ja voimme ajatella $ n $ -kokeiden lopputulosta vektorina $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Intuitiomme kertoo, että suuressa määrässä kokeita ”hyvä” arvio parametrista $ p $ on tilasto $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i . $$ Ajattele nyt tilannetta, jossa suoritan tällaisen kokeen. Voisitko arvioida $ p $ yhtä hyvin, jos ilmoitan sinulle $ \ bar X $ verrattuna $ \ boldsymbol X $? Varma. Tätä riittää meille: tilasto $ T (\ boldsymbol X) = \ bar X $ riittää hintaan $ p $, koska se säilyttää kaiken tiedon, jonka voimme saada noin $ p $ alkuperäinen näyte $ \ boldsymbol X $. (Tämän väitteen todistamiseksi tarvitaan kuitenkin enemmän selityksiä.)

Tässä on vähemmän triviaali esimerkki. Oletetaan, että minulla on $ n $ IID -havaintoja $ {\ rm Uniform} (0, \ theta) $ -jakelusta, jossa $ \ theta $ on tuntematon parametri. Mikä on riittävä tilasto $ \ theta $: lle? Oletetaan esimerkiksi, että otan $ n = 5 $ -näytettä ja saan $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Arviosi $ \ theta $: lle on selvästi oltava vähintään 5 $, koska pystyit havaitsemaan tällaisen arvon. Mutta se on eniten tietoa, jonka voit saada tuntemalla todellisen näytteen $ \ boldsymbol X $. Muut havainnot eivät välitä lisätietoja $ \ theta $: sta, kun olet havainnut $ X_4 = 5 $. Joten odotamme intuitiivisesti, että tilasto $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ riittää $ \ theta $: lle. Tämän todistamiseksi kirjoitamme $ \ boldsymbol X $: n yhteisen tiheyden, joka on ehdollinen $ \ theta $: lle, ja käytämme Factorization-teemaa (mutta jätän tämän pois, jotta keskustelu pysyisi epävirallisena).

Huomaa, että riittävä tilasto ei välttämättä ole skalaariarvoinen. Sillä ei ehkä ole mahdollista saavuttaa koko näytteen datan vähentämistä yhdeksi skalaariksi. Tämä syntyy yleisesti, kun haluamme riittävyyden useille parametreille (joita voimme vastaavasti pitää yhtenä vektoriarvoisena parametrina). Esimerkiksi riittävä tilasto normaalijakaumalle, jonka keskiarvo on tuntematon ja keskihajonta $ \ sigma $ on $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ oikea). $$ Itse asiassa nämä ovat puolueettomia arvioita keskiarvosta ja keskihajonnasta. Voimme osoittaa, että tämä on suurin datan vähennys, joka voidaan saavuttaa.

Huomaa myös, että riittävä tilasto ei ole ainutlaatuinen. Jos annan kolikonheittoesimerkissä $ \ bar X $, sen avulla voit arvioida $ p $. Mutta jos annoin sinulle $ \ sum_ {i = 1} ^ n X_i $, voit silti arvioida $ p $. Itse asiassa kaikki riittävän tilastotiedon $ T (\ boldsymbol X) $ henkilökohtaiset funktiot $ g $ ovat myös riittävät, koska voit kääntää $ g $ kääntämään $ T $: n takaisin. Joten normaalin esimerkin tuntemattomalla keskiarvolla ja keskihajonnalla voisin myös väittää, että $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, ts. havaintojen summa ja summa neliössä ovat riittävät $ (\ mu, \ sigma) $: lle. Riittävyyden ainutkertaisuus on todellakin vielä selvempi, sillä $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ riittää aina mihin tahansa parametriin: alkuperäinen näyte sisältää aina niin paljon tietoa kuin voimme kerätä .

Yhteenvetona voidaan todeta, että riittävyys on tilaston toivottava ominaisuus, koska sen avulla voimme muodollisesti osoittaa, että tilastolla saavutetaan jonkinlainen datan vähennys. Riittävää tilastoa, jolla saavutetaan enimmäismäärä datan vähennystä, kutsutaan minimaaliseksi riittäväksi tilastoksi.

Kommentit

  • Mitä olla yleinen suhde $ T (X) $: n ja parametrin $ p $ tai $ \ theta $ välillä? Pitääkö $ T (X) $ aina liittyä parametriin? Onko intuitiivisesti oikein sanoa, että factoring-lause toimii, koska kun erotamme pdf: n niin, että se on parametrin / riittävän statin ja x: n jonkin funktion tulo, voimme ottaa lokeja ja siten saada MLE-estimaatin? kiitos!
  • Riittävä tilasto ei välttämättä ole arvio parametreista; esim. alkuperäinen näyte ei ' t estimoi mitään. Sinun on tehtävä sille jotain saadaksesi arvion. Ainoa vaatimus on, että riittävä tilasto ei ' hylkää tietoja, joita saatat saada alkuperäisessä näytteessä olevista parametreista. Faktorointilause osoittaa riittävyyden, koska se ilmaisee parametrille ehdollistetun yhteisen PDF: n siten, että parametrille ehdollisena pysyvä osa on vain riittävän tilaston funktio.
  • Jatkamiseksi siinä mielessä , kun lasketaan PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, kerroin, joka antaa sinulle " tiedot " parametrista on ehdollinen osa $ g (T (\ boldsymbol x) \ mid \ theta) $. Kerroin $ h (\ boldsymbol x) $ ei ole ehtona $ \ theta $: lle, joten se ei anna ' tietoja siitä. Siksi kaikki mitä sinun tarvitsee tietää, on $ T (\ boldsymbol X) $, eikä mitään muuta.
  • Joten kun he sanovat, että " $ T (X ) $ riittää $ \ theta $ ", se tarkoittaa, että voin käyttää ehdollista osaa " $ g (T (X) | \ theta) $ löytääksesi arvion $ \ theta $?
  • Huomaa, että ainoa paikka, jossa näyte esiintyy muodossa $ g $, on se, kun se ilmaistaan summana $ T (\ boldsymbol x) = \ summa x_i $, joten se on riittävä tilastomme. Nyt, hypoteettisesti , jos pystyisimme saamaan vain tekijän muodossa $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ summa x_i}, $$, riittävä tilastomme olisi vektoriarvoinen: $ \ boldsymbol T (\ boldsymbol x) = (\ summa x_i, \ prod x_i) $.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *