Nehezen értem, hogy egy megfelelő statisztika valójában mi segít nekünk.
Azt mondja, hogy
Adott $ X_1, X_2, …, X_n $ valamilyen terjesztésből, egy statisztika $ T (X) $ elegendő a $ \ theta $ paraméterhez, ha
$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .
Jelentés, ha ismeri a $ T (X) $ értéket, akkor nem nyerhetünk több információt a $ \ theta $ paraméterről figyelembe véve az adatok egyéb funkcióit $ X_1, X_2, …, X_n $ .
Két kérdésem lenne:
-
Számomra úgy tűnik, hogy a $ T (X) $ célja, hogy elkészítsük, hogy kiszámíthassuk egy eloszlás pdf-jét. könnyebben. Ha a pdf kiszámítása valószínűségi mérést eredményez , akkor miért mondják, hogy nem tudunk " további információt szerezhet a $ θ $ " paraméterről? Más szóval, miért arra összpontosítunk, hogy $ T (X) $ mondjon nekünk valamit a $ \ theta $ , amikor a pdf kiköti a valószínűség mérését, ami nem” t $ \ theta $ ?
-
Amikor ez áll: ", akkor nem kaphatunk több információt a θ paraméterről figyelembe véve az adatok egyéb funkcióit $ X_1, X_2, …, X_n $ . ", milyen egyéb funkciókról beszélnek? Ez hasonló ahhoz, hogy ha véletlenszerűen rajzolok $ n $ mintát, és keresse meg a $ T (X) $ elemet, majd a $ n bármely más készletét Az általam készített $ minták adnak $ T (X) $ -ot is?
Válasz
Úgy gondolom, hogy az elégségesség megértésének legjobb módja az ismert példák megfontolása. Tegyük fel, hogy megfordítunk egy (nem feltétlenül tisztességes) érmét, ahol a fejek megszerzésének valószínűsége valamilyen ismeretlen paraméter a $ p $. Ezután az egyes kísérletek IID Bernoulli (p) véletlenszerű változók, és úgy gondolhatunk, hogy a $ n $ kísérletek eredménye vektor = \ Xs (X_1, X_2, \ ldots, X_n) $ vektor. Az intuíciónkból kiderül, hogy számos kísérletnél a $ p $ paraméter “jó” becslése a $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i statisztika. . $$ Most gondoljon egy olyan helyzetre, amikor ilyen kísérletet hajtok végre. Meg tudná becsülni ugyanolyan jól a $ p $ értéket, ha tájékoztatlak a $ \ bar X $ értékről, összehasonlítva a $ \ boldsymbol X $ értékével? Biztos. Ezt teszi számunkra az elégség: a $ T (\ boldsymbol X) = \ bar X $ statisztika elegendő a $ p $ -hoz, mert megőrzi az összes információt, amelyet körülbelül $ p $ -hoz kaphatunk eredeti minta $ \ boldsymbol X $. (Ennek az állításnak a bizonyításához azonban több magyarázatra van szükség.)
Itt van egy kevésbé triviális példa. Tegyük fel, hogy $ n $ IID megfigyelésem van egy $ {\ rm Uniform} (0, \ theta) $ terjesztésből, ahol a $ \ theta $ az ismeretlen paraméter. Mi az elegendő statisztika a $ \ theta $ számára? Tegyük fel például, hogy $ n = 5 $ mintát veszek, és megszerzem az $ \ boldsymbol X = (3, 1, 4, 5, 4) $ értéket. A $ \ theta $ becslésének egyértelműen legalább 5 USD-nak kell lennie, mivel képes volt megfigyelni egy ilyen értéket. De ez a legtöbb tudás, amelyet a tényleges minta $ \ boldsymbol X $ ismeretében nyerhet ki. A többi megfigyelés nem ad további információt a $ \ theta $ -ról, ha megfigyelte a $ X_4 = 5 $ értéket. Tehát intuitív módon azt várnánk, hogy a $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ statisztika elegendő a $ \ theta $ számára. Valójában ennek bizonyítására megírnánk a $ \ boldsymbol X $ együttes sűrűségét, amelynek feltétele a $ \ theta $, és használnánk a Faktorizációs tételt (de ezt a vita informális megőrzése érdekében kihagyom).
Ne feledje, hogy az elegendő statisztika nem feltétlenül skaláris értékű. Mert lehet, hogy nem lehet a teljes mintát egyetlen skalárrá csökkenteni. Ez általában akkor merül fel, ha több paraméterhez akarunk elégséget (amit ekvivalensen egyetlen vektorértékű paraméternek is tekinthetünk). Például egy normál eloszlás elegendő statisztikája, ismeretlen átlagos $ \ mu $ és szórással $ \ sigma $ a $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ jobb). $$ Valójában ezek az átlag és a szórás elfogulatlan becslői. Megmutathatjuk, hogy ez az elérhető maximális adatcsökkentés.
Vegye figyelembe azt is, hogy az elegendő statisztika nem egyedi. Az érmefeldobási példában, ha $ \ bar X $ -ot adok, ez meg fogja becsülni $ p $ -ot. De ha megadtam neked $ \ sum_ {i = 1} ^ n X_i $, akkor is megbecsülheted $ p $ -ot. Valójában a $ T $ (\ boldsymbol X) $ elegendő statisztika bármely $ g $ függvénye is elegendő, mivel a $ T $ megfordításával visszaszerezheti a $ T $ értéket. Tehát a normál, ismeretlen átlaggal és szórással rendelkező példa esetében azt is állíthattam volna, hogy $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, azaz a négyzetes megfigyelések összege és összege elegendő a $ (\ mu, \ sigma) $ értékhez. Valóban, az elégség nem egyedisége még nyilvánvalóbb, mert a $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ mindig elegendő bármely paraméter (ek) hez: az eredeti minta mindig annyi információt tartalmaz, amennyit csak tudunk gyűjteni .
Összefoglalva, az elégségesség egy statisztika kívánatos tulajdonsága, mert lehetővé teszi számunkra, hogy formálisan megmutassuk, hogy a statisztika valamilyen adatcsökkentést ér el. Az elegendő statisztikát, amely eléri az adatok maximális mennyiségét, minimális elegendő statisztikának nevezzük.
Megjegyzések
- Mi lenne legyen általános összefüggés a $ T (X) $ és a $ p $ vagy $ \ theta $ paraméterünk között? A $ T (X) $ -nak mindig kapcsolódnia kell a paraméterhez? Továbbá, intuitívan, helyesen mondom-e azt, hogy a faktorizálási tétel működik, mert ha egyszer elkülönítjük a pdf-t úgy, hogy az x paraméter és / vagy a stat függvényének és az x valamilyen függvényének szorzata legyen, akkor naplózhatunk és így MLE becslést kaphatunk? köszönöm!
- Az elegendő statisztika nem feltétlenül a paraméter (ek) becslése; pl. az eredeti minta nem becsül meg semmit '. Becsléshez meg kell tennie valamit. Az egyetlen követelmény, hogy elegendő statisztika ne ' ne dobjon el minden információt, amelyet az eredeti mintában szereplő paraméter (ek) ről kaphat. A faktorizációs tétel elégségességet mutat, mert a paraméteren feltételezett közös PDF-et úgy fejezi ki, hogy a paramétertől függő rész csak az elegendő statisztika függvénye.
- A folytatáshoz ebben az értelemben , ha a PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $ tényezőt számolja, az a tényező, amely információ " a $ g (T (\ boldsymbol x) \ mid \ theta) $ feltételes része. A $ h (\ boldsymbol x) $ tényező nem feltételes a $ \ theta $ függvényében, ezért nem ad ' információt erről. Így minden, amit tudnod kell, a $ T (\ boldsymbol X) $, és semmi más.
- Tehát amikor azt mondják, hogy " $ T (X ) A $ elegendő a $ \ theta $ " értékhez, ez azt jelenti, hogy használhatom a (z) " $ g (T (X) feltételes részt | \ theta) $ a $ \ theta $ becslésének megtalálásához?
- Vegye figyelembe, hogy az egyetlen hely, ahol a minta megjelenik $ g $ -ban, akkor van, amikor azt $ T összegként fejezik ki (\ boldsymbol x) = \ sum x_i $, tehát ez a megfelelő statisztikánk. Most, hipotetikusan , ha csak a $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} formájú tényezőt tudtuk megszerezni \ lambda ^ {\ sum x_i}, $$, akkor elegendő statisztikánk vektorértékű lesz: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.