Jeg har vanskelig for å forstå hva en tilstrekkelig statistikk faktisk hjelper oss å gjøre.
Det står at
Gitt $ X_1, X_2, …, X_n $ fra noen distribusjon, en statistikk $ T (X) $ er tilstrekkelig for en parameter $ \ theta $ hvis
$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .
Betydning, hvis vi vet $ T (X) $ , så kan vi ikke få mer informasjon om parameteren $ \ theta $ ved å vurdere andre funksjoner i dataene $ X_1, X_2, …, X_n $ .
Jeg har to spørsmål:
-
Det virker for meg at formålet med $ T (X) $ er å gjøre det slik at vi kan beregne pdf-en for en distribusjon lettere. Hvis beregning av pdf gir et sannsynlighetsmål , hvorfor er det da sagt at vi ikke kan " få mer informasjon om parameteren $ θ $ "? Med andre ord, hvorfor er vi fokusert på at $ T (X) $ forteller oss noe om $ \ theta $ når pdfen spytter ut et sannsynlighetsmål, som ikke er» t $ \ theta $ ?
-
Når det står: " kan vi ikke få mer informasjon om parameteren θ av vurderer andre funksjoner i dataene $ X_1, X_2, …, X_n $ . ", hvilke andre funksjoner snakker de om? Er dette lik å si at hvis jeg tilfeldig tegner $ n $ prøver og finn $ T (X) $ , deretter et hvilket som helst annet sett med $ n $ eksempler jeg tegner gir $ T (X) $ også?
Svar
Jeg tror den beste måten å forstå tilstrekkelighet er å vurdere kjente eksempler. Anta at vi vender en (ikke nødvendigvis rettferdig) mynt, der sannsynligheten for å oppnå hoder er en ukjent parameter $ p $. Da er individuelle forsøk IID Bernoulli (p) tilfeldige variabler, og vi kan tenke på resultatet av $ n $ -forsøk som en vektor $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Intuisjonen vår forteller oss at for et stort antall forsøk er et «godt» estimat av parameteren $ p $ statistikken $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i . $$ Tenk nå på en situasjon der jeg utfører et slikt eksperiment. Kan du estimere $ p $ like bra hvis jeg informerer deg om $ \ bar X $, sammenlignet med $ \ boldsymbol X $? Sikker. Dette er hva tilstrekkelighet gjør for oss: statistikken $ T (\ boldsymbol X) = \ bar X $ er tilstrekkelig for $ p $ fordi den bevarer all informasjonen vi kan få om $ p $ fra originalprøve $ \ boldsymbol X $. (For å bevise dette kravet, trenger det imidlertid mer forklaring.)
Her er et mindre trivielt eksempel. Anta at jeg har $ n $ IID observasjoner hentet fra en $ {\ rm Uniform} (0, \ theta) $ distribusjon, der $ \ theta $ er den ukjente parameteren. Hva er tilstrekkelig statistikk for $ \ theta $? Anta for eksempel at jeg tar $ n = 5 $ prøver, og at jeg får $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Anslaget ditt for $ \ theta $ må helt klart være minst $ 5 $, siden du var i stand til å observere en slik verdi. Men det er mest kunnskap du kan hente ut fra å kjenne det faktiske eksemplet $ \ boldsymbol X $. De andre observasjonene gir ingen tilleggsinformasjon om $ \ theta $ når du har observert $ X_4 = 5 $. Så vi forventer intuitivt at statistikken $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ er tilstrekkelig for $ \ theta $. For å bevise dette, ville vi skrive felles tetthet for $ \ boldsymbol X $ betinget av $ \ theta $, og bruke faktoriseringsteorien (men jeg vil utelate dette for å holde diskusjonen uformell).
Merk at tilstrekkelig statistikk ikke nødvendigvis skaleres. For det er kanskje ikke mulig å oppnå datareduksjon av hele prøven i en enkelt skalar. Dette oppstår ofte når vi ønsker tilstrekkelighet for flere parametere (som vi tilsvarende kan betrakte som en enkelt vektorverdig parameter). For eksempel er en tilstrekkelig statistikk for en normalfordeling med ukjent gjennomsnitt $ \ mu $ og standardavvik $ \ sigma $ $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ høyre). $$ Faktisk er disse er upartiske estimatorer av middel- og standardavvik. Vi kan vise at dette er den maksimale datareduksjonen som kan oppnås.
Legg også merke til at tilstrekkelig statistikk ikke er unik. I myntkasteksemplet, hvis jeg gir deg $ \ bar X $, kan du estimere $ p $. Men hvis jeg ga deg $ \ sum_ {i = 1} ^ n X_i $, kan du fortsatt anslå $ p $. Faktisk er enhver en-til-en-funksjon $ g $ av tilstrekkelig statistikk $ T (\ boldsymbol X) $ også tilstrekkelig, siden du kan invertere $ g $ for å gjenopprette $ T $. Så for det normale eksemplet med ukjent gjennomsnitt og standardavvik, kunne jeg også ha hevdet at $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, dvs. at summen og summen av kvadratiske observasjoner er tilstrekkelig for $ (\ mu, \ sigma) $. Faktisk er tilstrekkelig ikke-unikhet enda tydeligere, for $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ er alltid tilstrekkelig for alle parametere: Den opprinnelige prøven inneholder alltid så mye informasjon som vi kan samle .
Oppsummert er tilstrekkelighet en ønskelig egenskap for en statistikk fordi den lar oss formelt vise at en statistikk oppnår en slags datareduksjon. En tilstrekkelig statistikk som oppnår maksimal mengde datareduksjon kalles en minimal tilstrekkelig statistikk.
Kommentarer
- Hva ville være den generelle sammenhengen mellom $ T (X) $ og parameteren $ p $ eller $ \ theta $? Må $ T (X) $ alltid være relatert til parameteren? Også, intuitivt, er det riktig at jeg sier at faktoriseringssetningen fungerer fordi når vi skiller ut pdf slik at det er et produkt av parameteren / tilstrekkelig stat og en eller annen funksjon av x, at vi kan ta logger og dermed oppnå et MLE-estimat? takk!
- En tilstrekkelig statistikk er ikke nødvendigvis et estimat av parameteren (e); den opprinnelige prøven estimerer ikke ' t noe. Du må gjøre noe for å få et estimat. Det eneste kravet er at en tilstrekkelig statistikk ikke ' ikke forkaster all informasjon du kan få om parameteren (e) som var i det opprinnelige eksemplet. Faktoriseringssetningen viser tilstrekkelighet fordi den uttrykker felles PDF betinget av parameteren på en slik måte at den delen som forblir betinget av parameteren bare er en funksjon av tilstrekkelig statistikk.
- For å fortsette, i den forstand , når du faktoriserer PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, faktoren som gir deg " informasjon " om parameteren er den betingede delen $ g (T (\ boldsymbol x) \ mid \ theta) $. Faktoren $ h (\ boldsymbol x) $ er ikke betinget av $ \ theta $, så den gir ikke ' informasjon om den. Dermed er alt du trenger å vite $ T (\ boldsymbol X) $, og ikke noe annet.
- Så når de sier at " $ T (X ) $ er tilstrekkelig for $ \ theta $ ", det betyr at jeg kan bruke den betingede delen " $ g (T (X) | \ theta) $ for å finne et estimat på $ \ theta $?
- Legg merke til at det eneste stedet hvor prøven vises i $ g $ er når den uttrykkes som summen $ T (\ boldsymbol x) = \ sum x_i $, så det er vår tilstrekkelige statistikk. Nå, hypotetisk , hvis vi bare var i stand til å oppnå en faktor av formen $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ sum x_i}, $$ så vil vår tilstrekkelige statistikk være vektorverdiert: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.