Jag har svårt att förstå vad en tillräcklig statistik faktiskt hjälper oss att göra.
Det står att
Givet $ X_1, X_2, …, X_n $ från någon distribution, en statistik $ T (X) $ räcker för en parameter $ \ theta $ om
$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .
Betydelse, om vi vet $ T (X) $ , då kan vi inte få mer information om parametern $ \ theta $ genom att överväga andra funktioner i data $ X_1, X_2, …, X_n $ .
Jag har två frågor:
-
Det verkar som om syftet med $ T (X) $ är att göra det så att vi kan beräkna pdf-filen för en distribution enklare. Om pdf-beräkningen ger ett sannolikhetsmått , varför sägs det att vi inte kan " få mer information om parametern $ θ $ "? Med andra ord, varför är vi fokuserade på att $ T (X) $ berättar något om $ \ theta $ när pdf-filen spottar ett sannolikhetsmått som inte är” t $ \ theta $ ?
-
När det står: " kan vi inte få mer information om parametern θ av överväger andra funktioner i datan $ X_1, X_2, …, X_n $ . ", vilka andra funktioner talar de om? Är det liknande att säga att om jag slumpmässigt ritar $ n $ prover och hitta $ T (X) $ , sedan någon annan uppsättning $ n $ prover jag ritar ger $ T (X) $ också?
Svara
Jag tror att det bästa sättet att förstå tillräcklighet är att överväga bekanta exempel. Antag att vi vänder ett (inte nödvändigtvis rättvist) mynt, där sannolikheten för att erhålla huvuden är någon okänd parameter $ p $. Sedan är enskilda försök IID Bernoulli (p) slumpmässiga variabler, och vi kan tänka på resultatet av $ n $ försök som en vektor $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Vår intuition berättar att för ett stort antal försök är en ”bra” uppskattning av parametern $ p $ statistiken $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i $$ Tänk nu på en situation där jag utför ett sådant experiment. Kan du uppskatta $ p $ lika bra om jag informerar dig om $ \ bar X $, jämfört med $ \ boldsymbol X $? Säker. Detta är vad tillräcklighet gör för oss: statistiken $ T (\ boldsymbol X) = \ bar X $ är tillräcklig för $ p $ eftersom den bevarar all information vi kan få om $ p $ från originalprov $ \ boldsymbol X $. (För att bevisa detta påstående behöver dock mer förklaring.)
Här är ett mindre trivialt exempel. Antag att jag har $ n $ IID-observationer hämtade från en $ {\ rm Uniform} (0, \ theta) $ distribution, där $ \ theta $ är den okända parametern. Vad är en tillräcklig statistik för $ \ theta $? Antag till exempel att jag tar $ n = 5 $ sampel och jag får $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Din uppskattning för $ \ theta $ måste tydligt vara minst $ 5 $, eftersom du kunde observera ett sådant värde. Men det är den mest kunskap du kan hämta från att känna till det faktiska exemplet $ \ boldsymbol X $. De andra observationerna förmedlar ingen ytterligare information om $ \ theta $ när du har observerat $ X_4 = 5 $. Så vi förväntar oss intuitivt att statistiken $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ är tillräcklig för $ \ theta $. För att bevisa detta skulle vi faktiskt skriva den gemensamma densiteten för $ \ boldsymbol X $ som är villkorad av $ \ theta $ och använda faktoriseringsteorin (men jag kommer att utelämna detta för att hålla diskussionen informell).
Observera att en tillräcklig statistik inte nödvändigtvis är skalfördelad. För det är kanske inte möjligt att åstadkomma datareduktion av hela provet till en enda skalär. Detta uppstår ofta när vi vill ha tillräcklighet för flera parametrar (som vi kan betrakta som en enda vektorvärderad parameter). Till exempel är en tillräcklig statistik för en normalfördelning med okänt medelvärde $ \ mu $ och standardavvikelse $ \ sigma $ $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ höger). $$ I själva verket dessa är opartiska uppskattare av medelvärdet och standardavvikelsen. Vi kan visa att detta är den maximala datareduktion som kan uppnås.
Observera också att en tillräcklig statistik inte är unik. I myntkastaexemplet, om jag ger dig $ \ bar X $, kan du uppskatta $ p $. Men om jag gav dig $ \ sum_ {i = 1} ^ n X_i $ kan du fortfarande uppskatta $ p $. I själva verket är alla en-till-en-funktioner $ g $ av en tillräcklig statistik $ T (\ boldsymbol X) $ också tillräckliga, eftersom du kan invertera $ g $ för att återhämta $ T $. Så för det normala exemplet med okänt medelvärde och standardavvikelse kunde jag också ha hävdat att $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, dvs summan och summan av kvadratiska observationer är tillräckliga för $ (\ mu, \ sigma) $. Faktum är att otillräckligheten med tillräcklighet är ännu tydligare, för $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ är alltid tillräckligt för alla parametrar: originalprovet innehåller alltid så mycket information som vi kan samla .
Sammanfattningsvis är tillräcklighet en önskvärd egenskap hos en statistik eftersom den låter oss formellt visa att en statistik uppnår någon form av datareduktion. En tillräcklig statistik som uppnår maximalt mängden datareduktion kallas en minimal tillräcklig statistik.
Kommentarer
- Vad skulle vara den allmänna relationen mellan $ T (X) $ och vår parameter $ p $ eller $ \ theta $? Måste $ T (X) $ alltid vara relaterad till parametern? Också, intuitivt, stämmer jag med att faktoriseringssatsen fungerar för att när vi separerar pdf så att det är produkten av parametern / tillräcklig stat och någon funktion av x, kan vi ta loggar och därmed få en MLE-uppskattning? tack!
- En tillräcklig statistik är inte nödvändigtvis en uppskattning av parametrarna; till exempel uppskattar originalprovet ' t något. Du måste göra något för att få en uppskattning. Det enda kravet är att en tillräcklig statistik inte ' kasserar all information du kan få om parametrarna som fanns i originalprovet. Faktoriseringssatsen visar att det är tillräckligt eftersom det uttrycker den gemensamma PDF som är villkorad av parametern på ett sådant sätt att den del som förblir villkorad av parametern bara är en funktion av tillräcklig statistik. , när du faktor PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, faktorn som ger dig " information " om parametern är den villkorliga delen $ g (T (\ boldsymbol x) \ mid \ theta) $. Faktorn $ h (\ boldsymbol x) $ är inte villkorad av $ \ theta $ så det ' inte tillhandahåller information om det. Således är allt du behöver veta $ T (\ boldsymbol X) $, och inte något annat.
- Så när de säger att " $ T (X ) $ räcker för $ \ theta $ ", det betyder att jag kan använda den villkorliga delen " $ g (T (X) | \ theta) $ för att hitta en uppskattning av $ \ theta $?
- Observera att den enda platsen där provet visas i $ g $ är när det uttrycks som summan $ T (\ boldsymbol x) = \ summa x_i $, så det är vår tillräckliga statistik. Nu, hypotetiskt , om vi bara kunde få en faktor av formen $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ sum x_i}, $$ då skulle vår tillräckliga statistik vara vektorvärderad: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.