Hvad betyder det, at en statistik $ T (X) $ er tilstrækkelig til en parameter?

Jeg har svært ved at forstå, hvad en tilstrækkelig statistik faktisk hjælper os med at gøre.

Der står, at

Givet $ X_1, X_2, …, X_n $ fra en vis distribution, en statistik $ T (X) $ er tilstrækkelig til en parameter $ \ theta $ hvis

$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .

Betydning, hvis vi kender $ T (X) $ , så kan vi ikke få flere oplysninger om parameteren $ \ theta $ ved at overveje andre funktioner i data $ X_1, X_2, …, X_n $ .

Jeg har to spørgsmål:

  1. Det forekommer mig, at formålet med $ T (X) $ er at gøre det, så vi kan beregne pdfen af en distribution lettere. Hvis beregning af pdf giver et sandsynlighedsmål , hvorfor siges det så, at vi ikke kan " få flere oplysninger om parameteren $ θ $ "? Med andre ord, hvorfor er vi fokuseret på $ T (X) $ at fortælle os noget om $ \ theta $ når pdf udspiller et sandsynlighedsmål, som ikke er” t $ \ theta $ ?

  2. Når der står: " kan vi ikke få flere oplysninger om parameteren θ ved overvejer andre funktioner i data $ X_1, X_2, …, X_n $ . ", hvilke andre funktioner taler de om? Er det ligesom at sige, at hvis jeg tilfældigt tegner $ n $ prøver og find $ T (X) $ , derefter ethvert andet sæt $ n $ prøver, jeg tegner, giver $ T (X) $ også?

Svar

Jeg tror, at den bedste måde at forstå tilstrækkelighed er at overveje kendte eksempler. Antag, at vi vender en (ikke nødvendigvis fair) mønt, hvor sandsynligheden for at få hoveder er en ukendt parameter $ p $. Derefter er individuelle forsøg IID Bernoulli (p) tilfældige variabler, og vi kan tænke på resultatet af $ n $ forsøg som værende en vektor $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $. Vores intuition fortæller os, at for et stort antal forsøg er et “godt” skøn over parameteren $ p $ statistikken $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i $$ Tænk nu på en situation, hvor jeg udfører et sådant eksperiment. Kunne du estimere $ p $ lige så godt, hvis jeg informerer dig om $ \ bar X $ sammenlignet med $ \ boldsymbol X $? Jo da. Dette er, hvad tilstrækkelighed gør for os: statistikken $ T (\ boldsymbol X) = \ bar X $ er tilstrækkelig for $ p $, fordi den bevarer alle de oplysninger, vi kan få omkring $ p $ fra original prøve $ \ boldsymbol X $. (For at bevise denne påstand er der dog brug for mere forklaring.)

Her er et mindre trivielt eksempel. Antag, at jeg har $ n $ IID observationer taget fra en $ {\ rm Uniform} (0, \ theta) $ distribution, hvor $ \ theta $ er den ukendte parameter. Hvad er en tilstrækkelig statistik for $ \ theta $? Antag for eksempel, at jeg tager $ n = 5 $ prøver, og at jeg får $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Dit estimat for $ \ theta $ skal klart være mindst $ 5 $, da du var i stand til at observere en sådan værdi. Men det er den mest viden, du kan hente fra at kende den faktiske prøve $ \ boldsymbol X $. De andre observationer giver ingen yderligere oplysninger om $ \ theta $, når du først har observeret $ X_4 = 5 $. Så vi ville intuitivt forvente, at statistikken $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ er tilstrækkelig til $ \ theta $. For at bevise dette ville vi faktisk skrive fælles densitet for $ \ boldsymbol X $ betinget af $ \ theta $ og bruge faktoriseringsteoremet (men jeg vil udelade dette for at holde diskussionen uformel).

Bemærk, at en tilstrækkelig statistik ikke nødvendigvis skaleres. For det er muligvis ikke muligt at opnå datareduktion af den komplette prøve i en enkelt skalar. Dette opstår ofte, når vi ønsker tilstrækkelighed til flere parametre (som vi ækvivalent kan betragte som en enkelt vektorværdiparameter). For eksempel er en tilstrækkelig statistik til en normalfordeling med ukendt gennemsnit $ \ mu $ og standardafvigelse $ \ sigma $ $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ højre). $$ Faktisk er disse er upartiske estimatorer af middelværdien og standardafvigelsen. Vi kan vise, at dette er den maksimale datareduktion, der kan opnås.

Bemærk også, at en tilstrækkelig statistik ikke er unik. I eksemplet med møntkast, hvis jeg giver dig $ \ bar X $, vil det lade dig estimere $ p $. Men hvis jeg gav dig $ \ sum_ {i = 1} ^ n X_i $, kan du stadig estimere $ p $. Faktisk er enhver en-til-en-funktion $ g $ af en tilstrækkelig statistik $ T (\ boldsymbol X) $ også tilstrækkelig, da du kan vende $ g $ for at inddrive $ T $. Så for det normale eksempel med ukendt gennemsnit og standardafvigelse kunne jeg også have hævdet, at $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, dvs. summen og summen af kvadratiske observationer er tilstrækkelige til $ (\ mu, \ sigma) $. Faktisk er ikke-entydigheden af tilstrækkelighed endnu mere indlysende, for $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ er altid tilstrækkelig til enhver parameter (er): den originale prøve indeholder altid så meget information, som vi kan indsamle .

Sammenfattende er tilstrækkelighed en ønskelig egenskab ved en statistik, fordi den giver os mulighed for formelt at vise, at en statistik opnår en form for datareduktion. En tilstrækkelig statistik, der opnår den maksimale mængde datareduktion, kaldes en tilstrækkelig statistik.

Kommentarer

  • Hvad ville være den generelle sammenhæng mellem $ T (X) $ og vores parameter $ p $ eller $ \ theta $? Skal $ T (X) $ altid være relateret til parameteren? Også, intuitivt, er jeg korrekt ved at sige, at faktoriseringssætningen fungerer, fordi når vi først adskiller pdf, så det er produktet af parameteren / tilstrækkelig stat og en eller anden funktion af x, at vi kan tage logfiler og dermed opnå et MLE-estimat? tak!
  • En tilstrækkelig statistik er ikke nødvendigvis et skøn over parameterne; f.eks. estimerer den originale prøve ' ikke noget. Du skal gøre noget for at få et skøn. Det eneste krav er, at en tilstrækkelig statistik ikke ' ikke kaster alle de oplysninger, du kunne få, om de parametre, der var i den originale prøve. Faktoriseringssætningen viser tilstrækkelighed, fordi den udtrykker den fælles PDF, der er betinget af parameteren på en sådan måde, at den del, der forbliver betinget af parameteren, kun er en funktion af den tilstrækkelige statistik.
  • For at fortsætte i den forstand , når du faktor PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $, den faktor, der giver dig " information " om parameteren er den betingede del $ g (T (\ boldsymbol x) \ mid \ theta) $. Faktoren $ h (\ boldsymbol x) $ er ikke betinget af $ \ theta $, så den giver ' ikke oplysninger om det. Så alt hvad du behøver at vide er $ T (\ boldsymbol X) $ og ikke noget andet.
  • Så når de siger, at " $ T (X ) $ er tilstrækkelig til $ \ theta $ ", det betyder, at jeg kan bruge den betingede del " $ g (T (X) | \ theta) $ for at finde et estimat på $ \ theta $?
  • Bemærk, at det eneste sted, hvor prøven vises i $ g $, er, når den udtrykkes som summen $ T (\ boldsymbol x) = \ sum x_i $, så det er vores tilstrækkelige statistik. hypotetisk , hvis vi kun var i stand til at opnå en faktor af formen $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} \ lambda ^ {\ sum x_i}, $$ så ville vores tilstrækkelige statistik være vektorværdieret: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *