Jag har problem med att förstå vad en Bayesian Bootstrapping-process är, och hur det skulle skilja sig från din normala bootstrapping. Och om någon skulle kunna erbjuda en intuitiv / konceptuell granskning och jämförelse av båda, det skulle vara bra.
Låt oss ta ett exempel.
Säg att vi har en dataset X som är [1,2,5,7, 3].
Om vi samlar utbyte flera gånger för att skapa provstorlekar lika med storleken på X (så, [7,7,2,5,7], [3,5,2,2,7] , etc), och sedan beräknar vi medelvärdet för var och en, är att bootstrap-fördelningen av provet betyder?
Vad skulle vara den bayesian bootstrap-fördelningen av det?
Och hur görs den bayesian bootstrap-fördelningen av andra parametrar (varians, etc) på samma sätt?
Kommentarer
- Se sumsar.net/blog/2015/04/… och projecteuclid.org/euclid.aos/1176345338 , kanske @ rasmus-b å å th kan svara dig;)
Svar
(Frequentist) bootstrap tar data som en rimlig approximation till den okända befolkningsfördelningen. Därför kan samplingsfördelningen av en statistik (en funktion av data) approximeras genom att upprepade gånger sampla observationerna med utbyte och beräkna statistiken för varje prov.
Låt $ y = (y_1, \ ldots, y_n) $ beteckna originaldata (i det givna exemplet, $ n = 5 $ ). Låt $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ beteckna ett bootstrap-exempel. Ett sådant urval kommer sannolikt att vissa observationer upprepas en eller flera gånger och andra observationer kommer att saknas. Medelvärdet för bootstrap-provet ges av $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ Det är fördelningen av $ m_b $ över ett antal bootstrap-replikationer som används för att approximera samplingsfördelningen från den okända befolkningen.
I ordning för att förstå sambandet mellan frekvent bootstrap och Bayesian bootstrap är det lärorikt att se hur man beräknar $ m_b $ ur ett annat perspektiv.
I varje bootstrap-prov $ y ^ b $ , varje observation $ y_i $ förekommer var som helst från 0 till $ n $ gånger. Låt $ h_i ^ b $ beteckna antalet gånger $ y_i $ inträffar i $ y ^ b $ , och låt $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Således $ h_i ^ b \ i \ {0, 1, \ ldots, n-1, n \} $ och $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Med tanke på $ h ^ b $ kan vi konstruera en samling icke-negativa vikter som sammanfattas till en: $ w ^ b = h ^ b / n $ , där $ w_i ^ b = h_i ^ b / n $ . Med denna notation kan vi återuttrycka medelvärdet av bootstrap-exemplet som $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$
Hur observationerna väljs för ett bootstrap-prov bestämmer den gemensamma fördelningen för $ w ^ b $ . I synnerhet har $ h ^ b $ en multinomial fördelning och därmed $$ (n \, w ^ b) \ sim \ textsf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Därför kan vi beräkna $ m_b $ genom att dra $ w ^ b $ från dess distribution och beräkna punktprodukten med $ y $ . Ur det nya perspektivet verkar det som om observationerna är fixerade medan vikterna varierar.
I Bayesians slutsats tas observationerna verkligen som fasta, så det här nya perspektivet verkar tillfredsställande för det Bayesiska tillvägagångssättet. Faktum är att beräkningen av medelvärdet enligt Bayesian bootstrap bara skiljer sig åt i fördelningen av vikterna. (Icke desto mindre skiljer sig Bayesian bootstrap från en konceptuell synpunkt från den frekventistiska versionen.) Data $ y $ är fasta och vikterna $ w $ är de okända parametrarna. Vi kan vara intresserade av några funktionella data som beror på okända parametrar: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$
Här är en miniatyrskiss av modellen bakom Bayesian bootstrap: Samplingsfördelningen för observationerna är multinomial och den tidigare för vikterna är en begränsande Dirichlet-fördelning som lägger all sin vikt på spetsarna på simplexen. (Vissa författare hänvisar till den här modellen som multinomial sannolikhetsmodell .)
Denna modell ger följande bakre fördelning för vikterna: $ $ w \ sim \ textsf {Dirichlet} (1, \ ldots, 1). $$ (Den här fördelningen är platt över simplexen.) De två fördelningarna för vikterna (frekvent och Bayesian) är ganska lika: De har samma medel och liknande kovarianter. Dirichlet-fördelningen är ”mjukare” än den multinomiala fördelningen, så Bayesian bootstrap kan kallas den smoothed bootstrap. Vi kan tolka den frekventa bootstrap som en approximation till Bayesian bootstrap.
Med tanke på den bakre fördelningen för vikterna kan vi approximera den bakre fördelningen av den funktionella $ \ mu $ genom upprepad provtagning $ w $ från dess Dirichlet-distribution och beräkning av punktprodukten med $ y $ .
Vi kan anta ramen för uppskattning av ekvationer $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ understryk 0, $$ där $ g (y_i, \ theta) $ är en vektor för uppskattningsfunktioner som beror på den okända parametern (vektor) $ \ theta $ och $ \ understryk 0 0 är en nollvektor. Om detta ekvationssystem har en unik lösning för $ \ theta $ givet $ y $ och $ w $ , då kan vi beräkna dess bakre distribution genom att dra $ w $ från dess posteriora distribution och utvärdera den lösningen. (Ramverket för att uppskatta ekvationer används med empirisk sannolikhet och med generaliserad metod för moment (GMM).)
Det enklaste fallet är det vi redan har behandlat: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ För medelvärdet och variansen, $ \ theta = (\ mu, v) $ vi har $$ g (y_i, \ theta) = \ börjar {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ Installationen är lite mer involverad än den för frekvent bootstrap, vilket är anledningen till att en Bayesian kan anta frekvensist bootstrap som en snabb approximation.
Kommentarer
- Tack för den mycket detaljerade beskrivningen. Personligen skulle jag uppskatta ett kort uttalande om när man ska välja var och en.
- Är inte ' t en platt bakre ett udda val? Jag hade förväntat mig en platt distribution som tidigare snarare än bakre. Jag kunde inte ' inte hitta några diskussioner om detta. Har du några kommentarer?
- @Blade – Jag tror den platta bakre är giltig eftersom alla observerade datapunkter är lika troliga att väljas. Jag ' jag försöker fortfarande få mitt huvud själv, men det kan hjälpa till: sumsar.net/blog/2015/ 04 / …
- @MattWenham Så valet av föregående är udda, och detta noteras av Rubin själv. Valet av prior är inställt så att den bakre efterliknar den klassiska bootstrap. Det ' är inte att det ' inte är giltigt, det ' är bara att det är inte mycket av en posterior när den ' är en platt distribution. Du kan förvänta dig att en posterior ger dig lite information baserat på en viss observation, men här har vi antagandet att alla distinkta värden i datasetet har observerats.