Co to znamená, že pro parametr stačí statistika $ T (X) $?

Těžko chápu, k čemu nám ve skutečnosti pomáhá dostatečná statistika.

Říká se, že

Vzhledem k $ X_1, X_2, …, X_n $ z nějaké distribuce, statistika $ T (X) $ je dostatečný pro parametr $ \ theta $ pokud

$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .

Význam, pokud vědět $ T (X) $ , pak nemůžeme získat žádné další informace o parametru $ \ theta $ zvážením dalších funkcí dat $ X_1, X_2, …, X_n $ .

Mám dvě otázky:

  1. Zdá se mi, že účelem $ T (X) $ je udělat to tak, abychom mohli vypočítat pdf distribuce jednodušeji. Pokud výpočet PDF přináší míru pravděpodobnosti , proč se tedy říká, že nemůžeme " získat další informace o parametru $ θ $ "? Jinými slovy, proč se soustředíme na to, že nám $ T (X) $ říká něco o $ \ theta $ , když PDF vyplivne míru pravděpodobnosti, která není“ t $ \ theta $ ?

  2. Když se říká: " nemůžeme získat žádné další informace o parametru θ pomocí s ohledem na další funkce dat $ X_1, X_2, …, X_n $ . " o jakých dalších funkcích mluví? Je to podobné, jako kdybych náhodně nakreslil $ n $ vzorky a najděte $ T (X) $ , pak jakoukoli další sadu $ n $ vzorky, které nakreslím, dávají také $ T (X) $ ?

Odpovědět

Myslím, že nejlepším způsobem, jak pochopit dostatečnost, je zvážit známé příklady. Předpokládejme, že otočíme (ne nutně spravedlivou) minci, kde pravděpodobnost získání hlav je nějaký neznámý parametr $ p $. Jednotlivé pokusy jsou pak náhodné proměnné IID Bernoulli (p) a můžeme uvažovat o výsledku $ n $ pokusů jako o vektoru $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Naše intuice nám říká, že pro velký počet pokusů je „dobrým“ odhadem parametru $ p $ statistika $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i $$ Nyní se zamyslete nad situací, kdy provádím takový experiment. Mohli byste odhadnout $ p $ stejně dobře, kdybych vás informoval o $ \ bar X $ ve srovnání s $ \ boldsymbol X $? Tak určitě. To pro nás dělá dostatečnost: statistika $ T (\ boldsymbol X) = \ bar X $ je dostatečná pro $ p $, protože zachovává všechny informace, které o $ p $ můžeme získat z původní vzorek $ \ boldsymbol X $. ( Dokázat toto tvrzení však vyžaduje další vysvětlení.)

Zde je méně triviální příklad. Předpokládejme, že mám pozorování $ n $ IID převzata z distribuce $ {\ rm Uniform} (0, \ theta) $, kde $ \ theta $ je neznámý parametr. Co je dostatečná statistika pro $ \ theta $? Předpokládejme například, že vezmu vzorky $ n = 5 $ a získám $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Váš odhad pro $ \ theta $ musí být jasně minimálně 5 $, protože jste byli schopni tuto hodnotu pozorovat. Ale to je nejvíce znalostí, které můžete získat ze znalosti skutečného vzorku $ \ boldsymbol X $. Jakmile pozorujete $ X_4 = 5 $, ostatní pozorování neposkytují žádné další informace o $ \ theta $. Takže bychom intuitivně očekávali, že statistika $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ je dostačující pro $ \ theta $. Abychom to dokázali, napíšeme hustotu kloubu pro $ \ boldsymbol X $ podmíněnou na $ \ theta $ a použijeme Factorization Theorem (ale v zájmu zachování neformální diskuse to vynechám).

Upozorňujeme, že dostatečná statistika nemusí mít nutně skalární hodnotu. Je možné, že nebude možné dosáhnout redukce dat celého vzorku do jednoho skaláru. To obvykle vzniká, když chceme dostatek pro více parametrů (které můžeme rovnocenně považovat za jeden parametr s vektorovou hodnotou). Například dostatečná statistika pro normální rozdělení s neznámým průměrem $ \ mu $ a standardní odchylkou $ \ sigma $ je $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ right). $$ Ve skutečnosti tyto jsou nezaujaté odhady střední a standardní odchylky. Můžeme ukázat, že se jedná o maximální redukci dat, které lze dosáhnout.

Upozorňujeme, že dostatečná statistika není jedinečná. V příkladu losování mincí, pokud vám dám $ \ bar X $, umožní vám to odhadnout $ p $. Ale pokud jsem vám dal $ \ sum_ {i = 1} ^ n X_i $, stále můžete odhadnout $ p $. Ve skutečnosti je také dostatečná jakákoli individuální funkce $ g $ s dostatečnou statistikou $ T (\ boldsymbol X) $, protože můžete invertovat $ g $ a obnovit $ T $. Takže pro normální příklad s neznámým průměrem a směrodatnou odchylkou jsem mohl také tvrdit, že $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, tj. součet a součet čtverců pozorování stačí pro $ (\ mu, \ sigma) $. Ve skutečnosti je jedinečnost dostatečnosti ještě jasnější, protože $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ je vždy dostačující pro jakýkoli parametr: původní vzorek vždy obsahuje tolik informací, kolik můžeme shromáždit .

Stručně řečeno, dostatečnost je žádoucí vlastností statistiky, protože nám umožňuje formálně ukázat, že statistika dosahuje určitého druhu redukce dat. Dostatečná statistika, která dosahuje maximální množství redukce dat, se nazývá minimální dostatečná statistika.

Komentáře

  • Co by být obecný vztah mezi $ T (X) $ a naším parametrem $ p $ nebo $ \ theta $? Musí $ T (X) $ vždy souviset s parametrem? Mám také intuitivně pravdu, když říkám, že faktorizační věta funguje, protože jakmile oddělíme pdf, takže je to produkt parametru / dostatečného statu a nějaké funkce x, můžeme vzít logy a získat tak odhad MLE? díky!
  • Dostatečná statistika nemusí být nutně odhadem parametru (parametrů); např. původní vzorek nic neodhaduje '. Musíte pro to něco udělat, abyste získali odhad. Jediným požadavkem je, aby dostatečná statistika nezavrhla ' t jakékoli informace, které byste mohli získat o parametrech, které byly v původním vzorku. Faktorizační věta ukazuje dostatečnost, protože vyjadřuje společné PDF podmíněné parametrem takovým způsobem, že část, která zůstává podmíněna parametrem, je pouze funkcí dostatečné statistiky.
  • Pokračovat v tomto smyslu , když faktorujete PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, faktor, který vám dává " Informace " o parametru je podmíněná část $ g (T (\ boldsymbol x) \ mid \ theta) $. Faktor $ h (\ boldsymbol x) $ není podmíněn $ \ theta $, takže o něm neposkytuje ' informace. Vše, co potřebujete vědět, je tedy $ T (\ boldsymbol X) $ a nic jiného.
  • Takže když řeknou, že " $ T (X ) $ je dostačující pro $ \ theta $ ", to znamená, že mohu použít podmíněnou část " $ g (T (X) | \ theta) $ k nalezení odhadu $ \ theta $?
  • Všimněte si, že jediné místo, kde se vzorek objeví v $ g $, je, když je vyjádřeno jako součet $ T (\ boldsymbol x) = \ sum x_i $, takže to je naše dostatečná statistika. Nyní, hypoteticky , kdybychom byli schopni získat pouze faktor ve tvaru $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ sum x_i}, $$ pak by naše dostatečná statistika měla vektorovou hodnotu: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *