Bootstrapping vs Bayesian Bootstrapping konseptuelt?

Jeg har problemer med å forstå hva en Bayesian Bootstrapping-prosess er, og hvordan det vil avvike fra din normale bootstrapping. Og hvis noen kan tilby en intuitiv / konseptuell gjennomgang og sammenligning av begge deler, det ville være bra.

La oss ta et eksempel.

Si at vi har et datasett X som er [1,2,5,7, 3].

Hvis vi prøver med erstatning flere ganger for å opprette prøvestørrelser lik størrelsen på X (så, [7,7,2,5,7], [3,5,2,2,7] , etc), og så beregner vi middelene til hver, er det at bootstrap-fordelingen av prøven betyr?

Hva ville være den bayesiske bootstrap-fordelingen av det?

Og hvordan blir den bayesian bootstrap-fordelingen av andre parametere (varians osv.) gjort på samme måter?

Kommentarer

Svar

(Frequentist) bootstrap tar dataene som en rimelig tilnærming til den ukjente populasjonsfordelingen. Derfor kan samplingsfordelingen av en statistikk (en funksjon av dataene) tilnærmes ved å gjentatte ganger sampling av observasjonene med erstatning og beregning av statistikken for hver prøve.

La $ y = (y_1, \ ldots, y_n) $ betegne de opprinnelige dataene (I eksemplet gitt, $ n = 5 $ ). La $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ betegne en bootstrap-prøve. En slik prøve vil sannsynligvis ha noen observasjoner gjentatt en eller flere ganger, og andre observasjoner vil være fraværende. Gjennomsnittet av bootstrap-prøven er gitt av $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ Det er fordelingen av $ m_b $ over et antall bootstrap-replikasjoner som brukes til å tilnærme samplingsfordelingen fra den ukjente befolkningen.

I rekkefølge for å forstå sammenhengen mellom den hyppige bootstrap og Bayesian bootstrap, er det lærerikt å se hvordan man kan beregne $ m_b $ fra et annet perspektiv.

I hver bootstrap-prøve $ y ^ b $ , hver observasjon $ y_i $ forekommer hvor som helst fra 0 til $ n $ ganger. La $ h_i ^ b $ angi antall ganger $ y_i $ forekommer i $ y ^ b $ , og la $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Dermed $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ and $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Gitt $ h ^ b $ , kan vi lage en samling ikke-negative vekter som summerer seg til en: $ w ^ b = h ^ b / n $ , der $ w_i ^ b = h_i ^ b / n $ . Med denne notasjonen kan vi uttrykke gjennomsnittet av bootstrap-eksemplet på nytt som $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$

Måten observasjonene blir valgt for en bootstrap-prøve bestemmer fellesfordelingen for $ w ^ b $ . Spesielt har $ h ^ b $ en multinomial fordeling og dermed $$ (n \, w ^ b) \ sim \ tekster {multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Derfor kan vi beregne $ m_b $ ved å tegne $ w ^ b $ fra distribusjonen og beregne punktproduktet med $ y $ . Fra dette nye perspektivet ser det ut til at observasjonene er faste mens vektene varierer.

I Bayesian-slutning blir observasjonene faktisk tatt som faste, så dette nye perspektivet virker behagelig for den Bayesiske tilnærmingen. Faktisk er beregningen av gjennomsnittet i henhold til Bayesian bootstrap bare forskjellig i fordelingen av vektene. (Likevel, fra et konseptuelt synspunkt, er den Bayesiske bootstrap ganske forskjellig fra den hyppige versjonen.) Dataene $ y $ er faste og vektene $ w $ er de ukjente parametrene. Vi kan være interessert i noen funksjonelle av dataene som avhenger av de ukjente parametrene: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$

Her er en miniatyrskisse av modellen bak Bayesian bootstrap: Samplingsfordelingen for observasjonene er multinomial og den tidligere for vektene er en begrensende Dirichlet-fordeling som legger all sin vekt på toppunktene til simpleksen. (Noen forfattere refererer til denne modellen som multinomial sannsynlighetsmodell .)

Denne modellen produserer følgende bakre fordeling for vektene: $ $ w \ sim \ textsf {Dirichlet} (1, \ ldots, 1). $$ (Denne fordelingen er flat over simpleksen.) De to fordelingene for vektene (frekventist og Bayesian) er ganske like: De har samme middel og lignende kovarianter. Dirichlet-distribusjonen er «jevnere» enn den multinomiale fordelingen, så den Bayesian bootstrap kan kalles den smoothed bootstrap. Vi kan tolke den hyppige bootstrap som en tilnærming til Bayesian bootstrap.

Gitt den bakre fordelingen for vektene, kan vi tilnærme den bakre fordelingen av den funksjonelle $ \ mu $ ved gjentatt sampling $ w $ fra sin Dirichlet-distribusjon og beregning av punktproduktet med $ y $ .

Vi kan vedta rammeverket for estimering av ligninger $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ understrek 0, $$ der $ g (y_i, \ theta) $ er en vektor av estimeringsfunksjoner som avhenger av den ukjente parameteren (vektor) $ \ theta $ og $ \ understrek 0 $ er en vektor med nuller. Hvis dette ligningssystemet har en unik løsning for $ \ theta $ gitt $ y $ og $ w $ , så kan vi beregne den bakre fordelingen ved å tegne $ w $ fra den bakre distribusjonen og evaluere løsningen. (Rammeverket for estimering av ligninger brukes med empirisk sannsynlighet og med generalisert øyeblikksmetode (GMM).)

Det enkleste tilfellet er det vi allerede har behandlet: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ For gjennomsnittet og variansen, $ \ theta = (\ mu, v) $ vi har $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ Oppsettet er litt mer involvert enn det for den hyppige bootstrap, og det er grunnen til at en Bayesianer kanskje adopterer frequentist bootstrap som en rask tilnærming.

Kommentarer

  • Takk for den veldig detaljerte beskrivelsen. Personlig vil jeg sette pris på en kort uttalelse om når du skal velge hver enkelt.
  • Er ikke ' t en flat bakside et merkelig valg? Jeg hadde forventet en flat fordeling som tidligere i stedet for bak. Jeg kunne ikke ' ikke finne noen diskusjoner om dette. Har du noen kommentarer?
  • @ Blade – Jeg tror den flate bakre er gyldig fordi alle observerte datapunkter er like sannsynlige å bli valgt. Jeg ' prøver fortsatt å få hodet rundt meg selv, men dette kan hjelpe: sumsar.net/blog/2015/ 04 / …
  • @MattWenham Så valget av prior er merkelig, og dette bemerkes av Rubin selv. Valget av prior er satt slik at den bakre etterligner den klassiske bootstrap. Det ' er ikke at det ' ikke er gyldig, det ' er bare det er ikke mye av en posterior når den ' er en flat fordeling. Du forventer at en posterior gir deg litt informasjon basert på noen observasjoner, men her har vi antagelsen om at alle særegne verdier i datasettet er observert.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *