Ich habe Probleme zu verstehen, was ein Bayesian Bootstrapping-Prozess ist und wie sich dieser von Ihrem normalen Bootstrapping unterscheiden würde. Und wenn jemand ein intuitives / anbieten könnte konzeptionelle Überprüfung und Vergleich von beiden, das wäre großartig.
Nehmen wir ein Beispiel.
Nehmen wir an, wir haben einen Datensatz X, der [1,2,5,7, 3].
Wenn wir mehrmals mit Ersetzung abtasten, um Stichprobengrößen zu erstellen, die der Größe von X entsprechen (also [7,7,2,5,7], [3,5,2,2,7] , etc), und dann berechnen wir die Mittelwerte von jedem, ist das die Bootstrap-Verteilung des Stichprobenmittelwerts?
Wie würde die Bayessche Bootstrap-Verteilung davon aussehen?
Und wie erfolgt die Bayessche Bootstrap-Verteilung anderer Parameter (Varianz usw.) auf die gleiche Weise?
Kommentare
- Siehe sumsar.net/blog/2015/04/… und projecteuclid.org/euclid.aos/1176345338 , möglicherweise @ rasmus-b å å th kann Ihnen antworten;)
Antwort
Der (häufig auftretende) Bootstrap nimmt die Daten als vernünftige Annäherung an die unbekannte Bevölkerungsverteilung. Daher kann die Stichprobenverteilung einer Statistik (eine Funktion der Daten) durch wiederholtes erneutes Abtasten der Beobachtungen mit Ersetzen und Berechnen der Statistik für jede Stichprobe angenähert werden.
Lassen Sie $ y = (y_1, \ ldots, y_n) $ die Originaldaten bezeichnen (In dem angegebenen Beispiel $ n = 5 $ ). $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ bezeichne ein Bootstrap-Beispiel. Bei einer solchen Probe werden wahrscheinlich einige Beobachtungen ein- oder mehrmals wiederholt, und andere Beobachtungen fehlen. Der Mittelwert des Bootstrap-Beispiels wird durch $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b angegeben. $$ Es ist die Verteilung von $ m_b $ über eine Reihe von Bootstrap-Replikationen, die verwendet wird, um die Stichprobenverteilung aus der unbekannten Population zu approximieren.
In der Reihenfolge Um die Verbindung zwischen dem frequentistischen Bootstrap und dem Bayesschen Bootstrap zu verstehen, ist es lehrreich zu sehen, wie $ m_b $ aus einer anderen Perspektive berechnet wird.
In jedem Bootstrap-Beispiel $ y ^ b $ wird jede Beobachtung $ y_i $ tritt irgendwo zwischen 0 und $ n $ mal auf. $ h_i ^ b $ bezeichnet die Häufigkeit, mit der $ y_i $ in $ y ^ b $ , und lassen Sie $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Also $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ und $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Wenn $ h ^ b $ gegeben ist, können wir eine Sammlung nichtnegativer Gewichte erstellen, die sich zu eins summieren: $ w ^ b = h ^ b / n $ , wobei $ w_i ^ b = h_i ^ b / n $ . Mit dieser Notation können wir den Mittelwert des Bootstrap-Beispiels als $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i erneut ausdrücken. $$
Die Art und Weise, wie die Beobachtungen für ein Bootstrap-Beispiel ausgewählt werden, bestimmt die gemeinsame Verteilung für $ w ^ b $ . Insbesondere hat $ h ^ b $ eine multinomiale Verteilung und somit $$ (n \, w ^ b) \ sim \ textef {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Daher können wir $ m_b $ indem Sie $ w ^ b $ aus seiner Verteilung zeichnen und das Punktprodukt mit $ y $ berechnen. Aus dieser neuen Perspektive scheinen die Beobachtungen fest zu sein, während die Gewichte variieren.
In der Bayesschen Folgerung werden die Beobachtungen tatsächlich als fest angesehen, so dass diese neue Perspektive für den Bayesschen Ansatz kongenial erscheint. Tatsächlich unterscheidet sich die Berechnung des Mittelwerts nach dem Bayesschen Bootstrap nur in der Verteilung der Gewichte. (Aus konzeptioneller Sicht unterscheidet sich der Bayessche Bootstrap jedoch erheblich von der frequentistischen Version.) Die Daten $ y $ sind fest und die Gewichte $ w $ sind die unbekannten Parameter. Wir könnten an einigen funktionalen Daten interessiert sein, die von den unbekannten Parametern abhängen: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$
Hier ist eine Skizze des Modells hinter dem Bayesschen Bootstrap: Die Stichprobenverteilung für die Beobachtungen ist multinomial und der Prior für die Gewichte ist eine begrenzende Dirichlet-Verteilung, die das gesamte Gewicht angibt auf den Eckpunkten des Simplex. (Einige Autoren bezeichnen dieses Modell als multinomiales Wahrscheinlichkeitsmodell .)
Dieses Modell erzeugt die folgende hintere Verteilung für die Gewichte: $ $ w \ sim \ textef {Dirichlet} (1, \ ldots, 1). $$ (Diese Verteilung ist flach über dem Simplex.) Die beiden Verteilungen für die Gewichte (Frequentist und Bayesian) sind ziemlich ähnlich: Sie haben die gleichen Mittelwerte und ähnliche Kovarianzen. Die Dirichlet-Verteilung ist „glatter“ als die multinomiale Verteilung, daher kann der Bayessche Bootstrap als geglätteter Bootstrap bezeichnet werden. Wir können den frequentistischen Bootstrap als Annäherung an den Bayesschen Bootstrap interpretieren.
Angesichts der posterioren Verteilung für die Gewichte können wir die posteriore Verteilung des funktionalen $ \ mu $ durch wiederholtes Abtasten $ w $ aus seiner Dirichlet-Verteilung und Berechnung des Punktprodukts mit $ y $ .
Wir können übernehmen der Rahmen der Schätzung von Gleichungen $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ underline 0, $$ wobei $ g (y_i, \ theta) $ ein Vektor von Schätzfunktionen ist, der vom unbekannten Parameter (Vektor) abhängt $ \ theta $ und $ \ underline 0 $ ist ein Vektor von Nullen. Wenn dieses Gleichungssystem eine eindeutige Lösung für $ \ theta $ bei $ y $ und $ w $ , dann können wir seine hintere Verteilung berechnen, indem wir $ w $ aus seiner hinteren Verteilung ziehen und diese Lösung bewerten. (Der Rahmen für die Schätzung von Gleichungen wird mit empirischer Wahrscheinlichkeit und mit der verallgemeinerten Methode der Momente (GMM) verwendet.)
Der einfachste Fall ist der, mit dem wir uns bereits befasst haben: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ Für den Mittelwert und die Varianz $ \ theta = (\ mu, v) $ wir haben $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ Das Setup ist etwas komplizierter als das für den häufig auftretenden Bootstrap, weshalb ein Bayesianer den häufig auftretenden Bootstrap als schnelle Annäherung verwenden könnte.
Kommentare
- Vielen Dank für die sehr detaillierte Beschreibung. Persönlich würde ich mich über eine kurze Erklärung freuen, wann jeder ausgewählt werden soll.
- Ist ' ein flacher posterior keine seltsame Wahl? Ich hätte eine flache Verteilung eher als vorher als nach hinten erwartet. Ich konnte ' keine Diskussionen dazu finden. Haben Sie Kommentare?
- @Blade – Ich denke , dass der flache Posterior gültig ist, da alle beobachteten Datenpunkte gleich wahrscheinlich ausgewählt werden. Ich ' versuche immer noch, mich selbst darum zu kümmern, aber dies kann helfen: sumsar.net/blog/2015/ 04 / …
- @MattWenham Die Wahl des Prior ist also ungerade, und dies wird von Rubin selbst bemerkt. Die Wahl des Prior ist so eingestellt, dass der Posterior den klassischen Bootstrap nachahmt. Es ist ' nicht, dass es ' nicht gültig ist, es ' ist nur das, was es ist ist nicht sehr posterior, wenn ' eine flache Verteilung ist. Sie würden erwarten, dass ein Posterior Ihnen einige Informationen basierend auf einer Beobachtung gibt, aber hier haben wir die Annahme, dass alle unterscheidenden Werte im Datensatz beobachtet wurden.