Ik heb moeite om te begrijpen wat een voldoende statistiek ons eigenlijk helpt.
Er staat dat
Gegeven $ X_1, X_2, …, X_n $ uit een bepaalde distributie, een statistiek $ T (X) $ is voldoende voor een parameter $ \ theta $ if
$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .
Betekenis, als we weet $ T (X) $ , dan kunnen we geen informatie meer krijgen over de parameter $ \ theta $ door rekening te houden met andere functies van de gegevens $ X_1, X_2, …, X_n $ .
Ik heb twee vragen:
-
Het lijkt mij dat het doel van $ T (X) $ is om het zo te maken dat we de pdf van een distributie kunnen berekenen makkelijker. Als het berekenen van de pdf een waarschijnlijkheidsmaatstaf oplevert, waarom staat er dan dat we niet " meer informatie verkrijgen over de parameter $ θ $ "? Met andere woorden, waarom zijn we gefocust op $ T (X) $ die ons iets vertellen over $ \ theta $ wanneer de pdf een kansmaatregel uitspuugt, die niet” t $ \ theta $ is?
-
Als er staat: " kunnen we geen informatie meer krijgen over de parameter θ by rekening houdend met andere functies van de gegevens $ X_1, X_2, …, X_n $ . ", over welke andere functies hebben ze het? Is dit vergelijkbaar met te zeggen dat als ik willekeurig $ n $ voorbeelden en zoek $ T (X) $ , en vervolgens een andere set $ n $ voorbeelden die ik teken geven $ T (X) $ ook?
Antwoord
Ik denk dat de beste manier om toereikendheid te begrijpen, is door bekende voorbeelden te beschouwen. Stel dat we een (niet per se eerlijke) munt omdraaien, waarbij de kans om kop te krijgen een onbekende parameter $ p $ is. Individuele proeven zijn dan IID Bernoulli (p) willekeurige variabelen, en we kunnen de uitkomst van $ n $ proeven zien als een vector $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Onze intuïtie vertelt ons dat voor een groot aantal onderzoeken een “goede” schatting van de parameter $ p $ de statistiek is $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i . $$ Denk nu eens aan een situatie waarin ik zon experiment uitvoer. Kunt u $ p $ even goed schatten als ik u informeer over $ \ maat X $, vergeleken met $ \ vetsymbool X $? Zeker. Dit is wat toereikendheid voor ons doet: de statistiek $ T (\ boldsymbol X) = \ bar X $ is voldoende voor $ p $ omdat alle informatie die we kunnen krijgen over $ p $ uit de origineel voorbeeld $ \ boldsymbol X $. (Om deze bewering te bewijzen , heeft u echter meer uitleg nodig.)
Hier is een minder triviaal voorbeeld. Stel dat ik $ n $ IID-waarnemingen heb uit een $ {\ rm Uniform} (0, \ theta) $ -distributie, waarbij $ \ theta $ de onbekende parameter is. Wat is een voldoende statistiek voor $ \ theta $? Stel dat ik $ n = 5 $ monsters neem en ik krijg $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Uw schatting voor $ \ theta $ moet duidelijk ten minste $ 5 $ zijn, aangezien u een dergelijke waarde hebt kunnen waarnemen. Maar dat is de meeste kennis die u kunt verkrijgen door het feitelijke voorbeeld $ \ boldsymbol X $ te kennen. De andere waarnemingen geven geen aanvullende informatie over $ \ theta $ zodra je $ X_4 = 5 $ hebt waargenomen. We zouden dus intuïtief verwachten dat de statistiek $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ voldoende is voor $ \ theta $. Om dit te bewijzen, schrijven we de gezamenlijke dichtheid voor $ \ boldsymbol X $ geconditioneerd op $ \ theta $, en gebruiken we de factorisatie-stelling (maar ik zal dit weglaten om de discussie informeel te houden).
Merk op dat een voldoende statistiek niet noodzakelijk scalair gewaardeerd is. Want het is misschien niet mogelijk om datareductie van de volledige steekproef tot een enkele scalair te bereiken. Dit doet zich gewoonlijk voor wanneer we voldoende willen voor meerdere parameters (die we equivalent kunnen beschouwen als een enkele parameter met een vectorwaarde). Een voldoende statistiek voor een normale verdeling met onbekend gemiddelde $ \ mu $ en standaarddeviatie $ \ sigma $ is bijvoorbeeld $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ right). $$ In feite zijn deze zijn zuivere schatters van de gemiddelde en standaarddeviatie. We kunnen aantonen dat dit de maximale datareductie is die kan worden bereikt.
Merk ook op dat een voldoende statistiek niet uniek is. Als ik je in het voorbeeld van de toss $ \ bar X $ geef, kun je $ p $ schatten. Maar als ik je $ \ sum_ {i = 1} ^ n X_i $ gaf, kun je nog steeds $ p $ schatten. In feite is elke één-op-één-functie $ g $ met een voldoende statistiek $ T (\ vetsymbool X) $ ook voldoende, aangezien u $ g $ kunt omkeren om $ T $ terug te krijgen. Dus voor het normale voorbeeld met onbekend gemiddelde en standaarddeviatie, had ik ook kunnen beweren dat $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, dwz de som en som van de kwadratische waarnemingen zijn voldoende voor $ (\ mu, \ sigma) $. Inderdaad, de niet-uniekheid van voldoende is zelfs nog duidelijker, want $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ is altijd voldoende voor elke parameter (s): het originele monster bevat altijd zoveel informatie als we kunnen verzamelen .
Samenvattend, toereikendheid is een wenselijke eigenschap van een statistiek omdat het ons in staat stelt om formeel aan te tonen dat een statistiek een soort datareductie bereikt. Een voldoende statistiek die de maximale hoeveelheid gegevensreductie bereikt, wordt een statistiek die minimaal voldoende is genoemd.
Opmerkingen
- Wat zou is de algemene relatie tussen $ T (X) $ en onze parameter $ p $ of $ \ theta $? Moet $ T (X) $ altijd gerelateerd zijn aan de parameter? Ook, intuïtief, heb ik gelijk als ik zeg dat de factorisatiestelling werkt, want zodra we pdf scheiden zodat het het product is van de parameter / voldoende stat en een functie van x, kunnen we logboeken nemen en zo een MLE-schatting verkrijgen? bedankt!
- Een voldoende statistiek is niet noodzakelijk een schatting van de parameter (s); bijv. het originele monster schat niets in '. U moet er iets aan doen om een schatting te krijgen. De enige vereiste is dat een voldoende statistiek niet ' alle informatie negeert die je zou kunnen krijgen over de parameter (s) die in de originele steekproef zat. De factorisatiestelling toont toereikendheid aan omdat het de gezamenlijke PDF, geconditioneerd op de parameter, zo uitdrukt dat het deel dat voorwaardelijk blijft aan de parameter alleen een functie is van de voldoende statistiek.
- Om door te gaan, in die zin , wanneer u de PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $ factoreert, de factor die u informatie " over de parameter is het voorwaardelijke deel $ g (T (\ boldsymbol x) \ mid \ theta) $. De factor $ h (\ boldsymbol x) $ is niet afhankelijk van $ \ theta $, dus ' geeft er geen informatie over. Dus alles wat je hoeft te weten is $ T (\ boldsymbol X) $, en niets anders.
- Dus als ze zeggen dat " $ T (X ) $ is voldoende voor $ \ theta $ ", het betekent dat ik het voorwaardelijke deel " $ g (T (X) | \ theta) $ om een schatting van $ \ theta $ te vinden?
- Merk op dat de enige plaats waar het monster verschijnt in $ g $ is wanneer het wordt uitgedrukt als de som $ T (\ boldsymbol x) = \ som x_i $, dus dat is onze voldoende statistiek. Nu, hypothetisch , als we maar een factor van de vorm $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} konden verkrijgen \ lambda ^ {\ som x_i}, $$ dan zou onze voldoende statistiek een vectorwaarde hebben: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.