Bootstrapping vs Bayesian Bootstrapping konceptuelt?

Jeg har problemer med at forstå, hvad en Bayesian Bootstrapping-proces er, og hvordan det ville adskille sig fra din normale bootstrapping. Og hvis nogen kunne tilbyde en intuitiv / konceptuel gennemgang og sammenligning af begge dele, det ville være godt.

Lad os tage et eksempel.

Sig, at vi har et datasæt X, der er [1,2,5,7, 3].

Hvis vi prøver med udskiftning flere gange for at oprette prøvestørrelser svarende til størrelsen på X (så [7,7,2,5,7], [3,5,2,2,7] osv.), og så beregner vi middelværdien for hver, er det, at bootstrap-fordelingen af prøven betyder?

Hvad ville være den bayesiske bootstrap-distribution af det?

Og hvordan udføres den bayesiske bootstrap-distribution af andre parametre (varians osv.) på samme måder?

Kommentarer

Svar

(Frequentist) bootstrap tager dataene som en rimelig tilnærmelse til den ukendte befolkningsfordeling. Derfor kan samplingsfordelingen af en statistik (en funktion af dataene) tilnærmes ved gentagne gange at sampling af observationer med udskiftning og beregning af statistikken for hver prøve.

Lad $ y = (y_1, \ ldots, y_n) $ angive de originale data (I det givne eksempel $ n = 5 $ ). Lad $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ betegne en bootstrap-prøve. En sådan prøve vil sandsynligvis have nogle observationer gentaget en eller flere gange, og andre observationer vil være fraværende. Gennemsnittet af bootstrap-prøven er angivet af $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ Det er fordelingen af $ m_b $ over et antal bootstrap-replikationer, der bruges til at tilnærme prøveuddelingen fra den ukendte population.

I rækkefølge for at forstå forbindelsen mellem den hyppige bootstrap og den Bayesiske bootstrap, er det lærerigt at se, hvordan man beregner $ m_b $ fra et andet perspektiv.

I hver bootstrap-prøve $ y ^ b $ , hver observation $ y_i $ forekommer hvor som helst fra 0 til $ n $ gange. Lad $ h_i ^ b $ angive antallet af gange $ y_i $ forekommer i $ y ^ b $ , og lad $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Således $ h_i ^ b \ i \ {0, 1, \ ldots, n-1, n \} $ og $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Givet $ h ^ b $ , kan vi konstruere en samling af ikke-negative vægte der summeres til en: $ w ^ b = h ^ b / n $ , hvor $ w_i ^ b = h_i ^ b / n $ . Med denne notation kan vi genudtrykke gennemsnittet af bootstrap-prøven som $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$

Den måde, hvorpå observationer vælges til en bootstrap-prøve, bestemmer den fælles fordeling for $ w ^ b $ . Især $ h ^ b $ har en multinomial fordeling og dermed $$ (n \, w ^ b) \ sim \ textsf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Derfor kan vi beregne $ m_b $ ved at tegne $ w ^ b $ fra distributionen og beregne prikproduktet med $ y $ . Fra dette nye perspektiv ser det ud til, at observationerne er faste mens vægtene varierer.

I Bayesian-slutning tages observationerne faktisk som faste, så dette nye perspektiv synes behageligt for den Bayesiske tilgang. Faktisk er beregningen af middelværdien ifølge den bayesiske bootstrap kun forskellig i fordelingen af vægtene. (Ikke desto mindre er den Bayesiske bootstrap fra et begrebsmæssigt synspunkt meget forskellig fra den hyppige version.) Data $ y $ er faste, og vægtene $ w $ er de ukendte parametre. Vi kan være interesseret i nogle funktionelle af de data, der afhænger af de ukendte parametre: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$

Her er en miniaturebillede af modellen bag Bayesian bootstrap: Samplingsfordelingen til observationer er multinomial, og den tidligere for vægten er en begrænsende Dirichlet-fordeling, der lægger al sin vægt på simplexens hjørner. (Nogle forfattere henviser til denne model som den multinomiale sandsynlighedsmodel .)

Denne model producerer følgende bageste fordeling for vægtene: $ $ w \ sim \ textsf {Dirichlet} (1, \ ldots, 1). $$ (Denne fordeling er flad over simplexen.) De to fordelinger for vægtene (hyppighed og Bayesian) er ret ens: De har de samme midler og lignende kovarianter. Dirichlet-fordelingen er “glattere” end den multinomiale fordeling, så den bayesiske bootstrap kan kaldes den udjævne bootstrap. Vi kan fortolke den hyppige bootstrap som en tilnærmelse til den Bayesiske bootstrap.

I betragtning af den bageste fordeling af vægtene kan vi tilnærme den bageste fordeling af den funktionelle $ \ mu $ ved gentagen prøveudtagning $ w $ fra sin Dirichlet-distribution og beregning af punktproduktet med $ y $ .

Vi kan vedtage rammen for estimering af ligninger $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ understreg 0, $$ hvor $ g (y_i, \ theta) $ er en vektor af estimeringsfunktioner der afhænger af den ukendte parameter (vektor) $ \ theta $ og $ \ understreget 0 $ er en vektor med nuller. Hvis dette ligningssystem har en unik løsning til $ \ theta $ givet $ y $ og $ w $ , så kan vi beregne dens bageste fordeling ved at tegne $ w $ fra dens bageste distribution og evaluere den løsning. (Rammen for estimering af ligninger bruges med empirisk sandsynlighed og med generaliseret metode til øjeblikke (GMM).)

Den enkleste sag er den, vi allerede har behandlet: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ For middelværdien og variansen $ \ theta = (\ mu, v) $ vi har $$ g (y_i, \ theta) = \ begynder {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ Opsætningen er lidt mere involveret end den for den hyppige bootstrap, hvorfor en Bayesian måske vedtager den hyppige bootstrap som en hurtig tilnærmelse.

Kommentarer

  • Tak for den meget detaljerede beskrivelse. Personligt vil jeg sætte pris på en kort erklæring om, hvornår man skal vælge hver enkelt.
  • Er ikke ' t en flad bageste et ulige valg? Jeg havde forventet en flad distribution som tidligere snarere end bagud. Jeg kunne ikke ' ikke finde nogen diskussioner om dette. Har du nogen kommentarer?
  • @Blade – jeg synes den flade bageste er gyldig, fordi alle observerede datapunkter sandsynligvis vælges. Jeg ' prøver stadig at få hovedet rundt om det selv, men det kan hjælpe: sumsar.net/blog/2015/ 04 / …
  • @MattWenham Så valget af prior er mærkeligt, og dette bemærkes af Rubin selv. Valget af prior er indstillet, så den bageste efterligner den klassiske bootstrap. Det ' er ikke, at det ' ikke er gyldigt, det ' er bare det er ikke meget af en posterior, når den ' er en flad distribution. Du forventer, at en posterior giver dig nogle oplysninger baseret på en eller anden observation, men her er det antagelsen, at alle særprægede værdier i datasættet er blevet observeret.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *