Was bedeutet es, dass eine Statistik $ T (X) $ für einen Parameter ausreicht?

Es fällt mir schwer zu verstehen, was eine ausreichende Statistik uns tatsächlich hilft.

Es heißt, dass

Bei $ X_1, X_2, …, X_n $ aus einer Verteilung ergibt sich eine Statistik $ T (X) $ ist ausreichend für einen Parameter $ \ theta $ , wenn

$ P (X_1, X_2 , …, X_n | T (X), \ theta) = P (X_1, X_2, …, X_n | T (X)) $ .

Bedeutung, wenn wir Wenn Sie $ T (X) $ kennen, können wir keine weiteren Informationen über den Parameter $ \ theta $ erhalten unter Berücksichtigung anderer Funktionen der Daten $ X_1, X_2, …, X_n $ .

Ich habe zwei Fragen:

  1. Es scheint mir, dass der Zweck von $ T (X) $ darin besteht, es so zu gestalten, dass wir das PDF einer Verteilung berechnen können noch einfacher. Wenn die Berechnung des PDFs ein Wahrscheinlichkeitsmaß ergibt, warum wird dann gesagt, dass wir nicht " Weitere Informationen zum Parameter $ θ $ "? Mit anderen Worten, warum konzentrieren wir uns auf $ T (X) $ und erzählen uns etwas über $ \ theta $ , wenn das PDF ein Wahrscheinlichkeitsmaß ausspuckt, das nicht“ t $ \ theta $ ?

  2. Wenn es heißt: " können wir keine weiteren Informationen über den Parameter θ von unter Berücksichtigung anderer Funktionen der Daten $ X_1, X_2, …, X_n $ . ", über welche anderen Funktionen sprechen sie? Bedeutet das, wenn ich zufällig $ n $ tastet ab und findet $ T (X) $ , dann jede andere Menge von $ n $ Beispiele, die ich zeichne, geben $ T (X) $ auch?

Antwort

Ich denke, der beste Weg, um die Suffizienz zu verstehen, besteht darin, bekannte Beispiele zu betrachten. Angenommen, wir werfen eine (nicht unbedingt faire) Münze, bei der die Wahrscheinlichkeit, Köpfe zu erhalten, ein unbekannter Parameter $ p $ ist. Dann sind einzelne Versuche IID Bernoulli (p) Zufallsvariablen, und wir können uns das Ergebnis von $ n $ Versuchen als einen Vektor $ \ boldsymbol X = (X_1, X_2, \ ldots, X_n) $ vorstellen. Unsere Intuition sagt uns, dass für eine große Anzahl von Versuchen eine „gute“ Schätzung des Parameters $ p $ die Statistik $$ \ bar X = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i ist Denken Sie jetzt an eine Situation, in der ich ein solches Experiment durchführe. Könnten Sie $ p $ gleich gut schätzen, wenn ich Sie über $ \ bar X $ im Vergleich zu $ \ boldsymbol X $ informiere? Sicher. Dies ist, was Suffizienz für uns bedeutet: Die Statistik $ T (\ boldsymbol X) = \ bar X $ ist ausreichend für $ p $, da sie alle Informationen enthält, die wir über $ p $ aus dem erhalten können Originalprobe $ \ boldsymbol X $. (Um diese Behauptung zu beweisen, bedarf es jedoch weiterer Erläuterungen.)

Hier ist ein weniger triviales Beispiel. Angenommen, ich habe $ n $ IID-Beobachtungen aus einer $ {\ rm Uniform} (0, \ theta) $ -Verteilung, wobei $ \ theta $ der unbekannte Parameter ist. Was ist eine ausreichende Statistik für $ \ theta $? Angenommen, ich nehme $ n = 5 $ Proben und erhalte $ \ boldsymbol X = (3, 1, 4, 5, 4) $. Ihre Schätzung für $ \ theta $ muss eindeutig mindestens $ 5 $ betragen, da Sie einen solchen Wert beobachten konnten. Dies ist jedoch das meiste Wissen, das Sie aus der Kenntnis der tatsächlichen Stichprobe $ \ boldsymbol X $ gewinnen können. Die anderen Beobachtungen liefern keine zusätzlichen Informationen über $ \ theta $, sobald Sie $ X_4 = 5 $ beobachtet haben. Wir würden also intuitiv erwarten, dass die Statistik $$ T (\ boldsymbol X) = X _ {(n)} = \ max \ boldsymbol X $$ für $ \ theta $ ausreicht. Um dies zu beweisen, würden wir die Gelenkdichte für $ \ boldsymbol X $ schreiben, die von $ \ theta $ abhängig ist, und den Faktorisierungssatz verwenden (aber ich werde dies weglassen, um die Diskussion informell zu halten).

Beachten Sie, dass eine ausreichende Statistik nicht unbedingt skalar ist. Denn es ist möglicherweise nicht möglich, eine Datenreduktion der gesamten Probe in einen einzigen Skalar zu erreichen. Dies tritt häufig auf, wenn mehrere Parameter ausreichend sein sollen (was wir äquivalent als einen einzelnen vektorwertigen Parameter betrachten können). Eine ausreichende Statistik für eine Normalverteilung mit unbekanntem Mittelwert $ \ mu $ und Standardabweichung $ \ sigma $ ist beispielsweise $$ \ boldsymbol T (\ boldsymbol X) = \ left (\ frac {1} {n} \ sum_ { i = 1} ^ n X_i, \ sqrt {\ frac {1} {n-1} \ sum_ {i = 1} ^ n (X_i – \ bar X) ^ 2} \ right). $$ Tatsächlich diese sind unvoreingenommene Schätzer des Mittelwerts und der Standardabweichung. Wir können zeigen, dass dies die maximale Datenreduktion ist, die erreicht werden kann.

Beachten Sie auch, dass eine ausreichende Statistik nicht eindeutig ist. Wenn ich Ihnen im Münzwurfbeispiel $ \ bar X $ gebe, können Sie $ p $ schätzen. Aber wenn ich Ihnen $ \ sum_ {i = 1} ^ n X_i $ gegeben habe, können Sie $ p $ trotzdem schätzen. Tatsächlich ist auch jede Eins-zu-Eins-Funktion $ g $ einer ausreichenden Statistik $ T (\ boldsymbol X) $ ausreichend, da Sie $ g $ invertieren können, um $ T $ wiederherzustellen. Für das normale Beispiel mit unbekanntem Mittelwert und unbekannter Standardabweichung hätte ich auch behaupten können, dass $ \ left (\ sum_ {i = 1} ^ n X_i, \ sum_ {i = 1} ^ n X_i ^ 2 \ right) $, dh die Summe und die Summe der quadratischen Beobachtungen reichen für $ (\ mu, \ sigma) $ aus. In der Tat ist die Nicht-Eindeutigkeit der Suffizienz noch offensichtlicher, denn $ \ boldsymbol T (\ boldsymbol X) = \ boldsymbol X $ ist für alle Parameter immer ausreichend: Die ursprüngliche Stichprobe enthält immer so viele Informationen, wie wir sammeln können .

Zusammenfassend ist die Suffizienz eine wünschenswerte Eigenschaft einer Statistik, da wir damit formal nachweisen können, dass eine Statistik eine Art Datenreduktion erzielt. Eine ausreichende Statistik, die die maximale Datenreduktion erreicht, wird als minimal ausreichende Statistik bezeichnet.

Kommentare

  • Was würde sei die allgemeine Beziehung zwischen $ T (X) $ und unserem Parameter $ p $ oder $ \ theta $? Muss $ T (X) $ immer mit dem Parameter verknüpft sein? Kann ich auch intuitiv zu Recht sagen, dass der Faktorisierungssatz funktioniert, weil wir, sobald wir das PDF so getrennt haben, dass es das Produkt des Parameters / ausreichenden stat und einer Funktion von x ist, Protokolle erstellen und so eine MLE-Schätzung erhalten können? danke!
  • Eine ausreichende Statistik ist nicht unbedingt eine Schätzung der Parameter; z. B. schätzt die ursprüngliche Stichprobe ' nichts. Sie müssen etwas tun, um eine Schätzung zu erhalten. Die einzige Voraussetzung ist, dass eine ausreichende Statistik ' keine Informationen verwirft, die Sie über die Parameter im ursprünglichen Beispiel erhalten könnten. Der Faktorisierungssatz ist ausreichend, da er das vom Parameter konditionierte gemeinsame PDF so ausdrückt, dass der Teil, der vom Parameter abhängig bleibt, nur eine Funktion der ausreichenden Statistik ist.
  • In diesem Sinne fortzufahren Wenn Sie das PDF $ f (\ boldsymbol x \ mid \ theta) = g (T (\ boldsymbol x) \ mid \ theta) h (\ boldsymbol x) $ faktorisieren, den Faktor, der Ihnen Informationen " über den Parameter sind der bedingte Teil $ g (T (\ boldsymbol x) \ mid \ theta) $. Der Faktor $ h (\ boldsymbol x) $ ist nicht von $ \ theta $ abhängig, sodass ' keine Informationen darüber liefert. Alles, was Sie wissen müssen, ist $ T (\ boldsymbol X) $ und nichts anderes.
  • Wenn sie also sagen, dass " $ T (X. ) $ ist ausreichend für $ \ theta $ ", dies bedeutet, dass ich den bedingten Teil " $ g (T (X) verwenden kann. | \ theta) $, um eine Schätzung von $ \ theta $ zu finden?
  • Beachten Sie, dass die Stichprobe nur dann in $ g $ erscheint, wenn sie als Summe $ T (\ boldsymbol x) ausgedrückt wird. = \ sum x_i $, das ist also unsere ausreichende Statistik. Nun, hypothetisch , wenn wir nur einen Faktor der Form $$ g (T (\ boldsymbol X) \ mid \ lambda) = e ^ {- n \ lambda \ prod x_i} erhalten könnten \ lambda ^ {\ sum x_i}, $$ dann wäre unsere ausreichende Statistik vektorwertig: $ \ boldsymbol T (\ boldsymbol x) = (\ sum x_i, \ prod x_i) $.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.