Co to znaczy, że statystyka $ T (X) $ jest wystarczająca dla parametru?

Trudno mi zrozumieć, co tak naprawdę pomaga nam wystarczająca statystyka.

Mówi się, że

Biorąc pod uwagę $ X_1, X_2, …, X_n $ z jakiejś dystrybucji, statystyka $ T (X) $ jest wystarczające dla parametru $ \ theta $ , jeśli

$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .

Oznacza to, że jeśli wiem $ T (X) $ , to nie możemy uzyskać więcej informacji o parametrze $ \ theta $ rozważając inne funkcje danych $ X_1, X_2, …, X_n $ .

Mam dwa pytania:

  1. Wydaje mi się, że celem $ T (X) $ jest to, abyśmy mogli obliczyć plik PDF dystrybucji łatwiejsze. Jeśli obliczenie pliku PDF daje miarę prawdopodobieństwa , to dlaczego mówi się, że nie możemy " uzyskać więcej informacji na temat parametru $ θ $ "? Innymi słowy, dlaczego skupiamy się na $ T (X) $ , mówiąc nam coś o $ \ theta $ , gdy plik PDF wypluwa miarę prawdopodobieństwa, która nie jest” t $ \ theta $ ?

  2. Kiedy jest napisane: " nie możemy uzyskać więcej informacji o parametrze θ przez biorąc pod uwagę inne funkcje danych $ X_1, X_2, …, X_n $ . ", o jakich innych funkcjach oni mówią? Czy to przypomina stwierdzenie, że jeśli losowo narysuję $ n $ próbek i znajdź $ T (X) $ , a następnie dowolny inny zestaw $ n $ próbki, które rysuję, dają również $ T (X) $ ?

Odpowiedz

Myślę, że najlepszym sposobem zrozumienia wystarczalności jest rozważenie znanych przykładów. Załóżmy, że rzucamy monetą (niekoniecznie uczciwą), w przypadku której prawdopodobieństwo uzyskania orła jest nieznanym parametrem $ p $. Wówczas indywidualne próby są zmiennymi losowymi IID Bernoulliego (p) i możemy myśleć o wyniku $ n $ prób jako o wektorze $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Nasza intuicja podpowiada nam, że w przypadku dużej liczby prób „dobrym” oszacowaniem parametru $ p $ jest statystyka $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i . $$ Teraz pomyśl o sytuacji, w której przeprowadzam taki eksperyment. Czy mógłbyś równie dobrze oszacować $ p $, jeśli podam ci $ \ bar X $, w porównaniu do $ \ boldsymbol X $? Pewnie. Oto, co dla nas wystarczy: statystyka $ T (\ boldsymbol X) = \ bar X $ jest wystarczająca dla $ p $, ponieważ zachowuje wszystkie informacje, które możemy uzyskać o $ p $ z oryginalna próbka $ \ boldsymbol X $. (Aby udowodnić to twierdzenie, wymaga jednak więcej wyjaśnień.)

Oto mniej trywialny przykład. Załóżmy, że mam obserwacje $ n $ IID pobrane z rozkładu $ {\ rm Uniform} (0, \ theta) $, gdzie $ \ theta $ jest nieznanym parametrem. Jaka jest wystarczająca statystyka dla $ \ theta $? Na przykład, przypuśćmy, że pobiorę $ n = 5 $ próbek i otrzymam $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Twoje oszacowanie $ \ theta $ musi oczywiście wynosić co najmniej 5 $, ponieważ byłaś w stanie zaobserwować taką wartość. Ale to jest największa wiedza, jaką możesz wydobyć ze znajomości rzeczywistej próbki $ \ boldsymbol X $. Inne obserwacje nie przekazują żadnych dodatkowych informacji na temat $ \ theta $ po zaobserwowaniu $ X_4 = 5 $. Zatem intuicyjnie oczekiwalibyśmy, że statystyka $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ jest wystarczająca dla $ \ theta $. Rzeczywiście, aby to udowodnić, zapisalibyśmy gęstość połączenia dla $ \ boldsymbol X $ uwarunkowany $ \ theta $ i użyli twierdzenia o faktoryzacji (ale pominę to, aby dyskusja była nieformalna).

Zauważ, że wystarczająca statystyka niekoniecznie ma wartość skalarną. Ponieważ może nie być możliwe osiągnięcie redukcji danych z całej próbki do jednego skalara. Dzieje się tak często, gdy chcemy, aby wiele parametrów było wystarczających (które równoważnie możemy traktować jako pojedynczy parametr o wartości wektorowej). Na przykład wystarczająca statystyka dla rozkładu normalnego z nieznaną średnią $ \ mu $ i odchyleniem standardowym $ \ sigma $ to $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ right). $$ W rzeczywistości te są obiektywnymi estymatorami średniej i odchylenia standardowego. Możemy pokazać, że jest to maksymalna redukcja danych, jaką można osiągnąć.

Należy również pamiętać, że wystarczająca statystyka nie jest unikalna. W przykładzie rzutu monetą, jeśli dam ci $ \ bar X $, to pozwoli ci oszacować $ p $. Ale jeśli podam ci $ \ sum_ {i = 1} ^ n X_i $, nadal możesz oszacować $ p $. W rzeczywistości, dowolna funkcja jeden do jednego $ g $ wystarczającej statystyki $ T (\ boldsymbol X) $ jest również wystarczająca, ponieważ możesz odwrócić $ g $, aby odzyskać $ T $. Tak więc dla normalnego przykładu z nieznaną średnią i odchyleniem standardowym mogłem również stwierdzić, że $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, tj. suma i suma kwadratów obserwacji są wystarczające dla $ (\ mu, \ sigma) $. Rzeczywiście, niejednoznaczność wystarczalności jest jeszcze bardziej oczywista, ponieważ $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ jest zawsze wystarczające dla dowolnego parametru (ów): oryginalna próbka zawsze zawiera tyle informacji, ile możemy zebrać .

Podsumowując, wystarczalność jest pożądaną właściwością statystyki, ponieważ pozwala nam formalnie wykazać, że statystyka prowadzi do pewnego rodzaju redukcji danych. Wystarczająca statystyka, która pozwala osiągnąć maksymalną wielkość redukcji danych, nazywana jest minimalną wystarczającą statystyką.

Komentarze

  • Co by to było być ogólną relacją między $ T (X) $ a naszym parametrem $ p $ lub $ \ theta $? Czy $ T (X) $ zawsze musi być powiązane z parametrem? Intuicyjnie, czy mam rację, mówiąc, że twierdzenie na temat faktoryzacji działa, ponieważ po oddzieleniu pliku PDF tak, że jest to iloczyn parametru / statystyki dostatecznej i jakiejś funkcji x, możemy wziąć logi i w ten sposób otrzymać oszacowanie MLE? dzięki!
  • Wystarczająca statystyka niekoniecznie jest oszacowaniem parametru (ów); np. oryginalna próbka nie ' niczego nie szacuje. Musisz coś z tym zrobić, żeby otrzymać wycenę. Jedynym wymaganiem jest to, aby wystarczająca statystyka nie ' nie pomijała żadnych informacji, które można uzyskać o parametrach, które były w oryginalnej próbce. Twierdzenie o rozkładzie na czynniki pokazuje wystarczającą wartość, ponieważ wyraża łączny PDF uwarunkowany parametrem w taki sposób, że część, która pozostaje zależna od parametru, jest tylko funkcją wystarczającej statystyki.
  • Kontynuując, w tym sensie , kiedy weźmiesz pod uwagę PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, to współczynnik, który daje " informacja " o parametrze to część warunkowa $ g (T (\ boldsymbol x) \ mid \ theta) $. Współczynnik $ h (\ boldsymbol x) $ nie jest zależny od $ \ theta $, więc nie ' nie dostarcza informacji na ten temat. Zatem wszystko, co musisz wiedzieć, to $ T (\ boldsymbol X) $, a nie nic innego.
  • Więc kiedy mówią, że " $ T (X ) $ jest wystarczające dla $ \ theta $ ", oznacza to, że mogę użyć części warunkowej " $ g (T (X) | \ theta) $, aby znaleźć oszacowanie $ \ theta $?
  • Zauważ, że jedyne miejsce, w którym próbka pojawia się w $ g $, jest wtedy, gdy jest wyrażone jako suma $ T (\ boldsymbol x) = \ suma x_i $, więc to jest nasza wystarczająca statystyka. Otóż, hipotetycznie , gdybyśmy byli w stanie uzyskać tylko współczynnik w postaci $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ sum x_i}, $$ wtedy nasza wystarczająca statystyka miałaby wartość wektorową: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *