Am probleme cu înțelegerea procesului Bayesian Bootstrapping și cum ar diferi de bootstrapping-ul dvs. normal. Și dacă cineva ar putea oferi un analiza conceptuală și compararea ambelor, ar fi minunat.
Să luăm un exemplu.
Să presupunem că avem un set de date X care este [1,2,5,7, 3].
Dacă eșantionăm cu înlocuire de mai multe ori pentru a crea dimensiuni ale eșantionului egale cu dimensiunea lui X (deci, [7,7,2,5,7], [3,5,2,2,7] , etc), și apoi calculăm media fiecăruia, înseamnă că distribuția bootstrap a eșantionului înseamnă?
Care ar fi distribuția bayesiană bootstrap a acesteia?
Și cum se face distribuția bayesiană bootstrap a altor parametri (varianță, etc) în același mod?
Comentarii
- Consultați sumsar.net/blog/2015/04/… și proiectuclid.org/euclid.aos/1176345338 , poate @ rasmus-b å å th vă poate răspunde;)
Răspundeți
Bootstrap-ul (frecventist) ia datele ca o aproximare rezonabilă la distribuția necunoscută a populației. Prin urmare, distribuția eșantionării unei statistici (o funcție a datelor) poate fi aproximată prin eșantionarea repetată a observațiilor cu înlocuire și calcularea statisticii pentru fiecare eșantion.
Să $ y = (y_1, \ ldots, y_n) $ să indice datele originale (În exemplul dat, $ n = 5 $ ). Să $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ să indice un eșantion bootstrap. Un astfel de eșantion va avea probabil unele observații repetate de una sau mai multe ori și alte observații vor fi absente. Media probei de bootstrap este dată de $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ Distribuția $ m_b $ pe o serie de replici bootstrap este utilizată pentru a aproxima distribuția eșantionării din populația necunoscută.
În ordine pentru a înțelege legătura dintre bootstrap-ul frecventist și bootstrap-ul bayesian, este instructiv să vedem cum să calculăm $ m_b $ dintr-o perspectivă diferită.
În fiecare eșantion de bootstrap $ y ^ b $ , fiecare observație $ y_i $ apare oriunde de la 0 la $ n $ ori. Să $ h_i ^ b $ să indice de câte ori apare $ y_i $ în $ y ^ b $ și lăsați $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Astfel, $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ și $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Având în vedere $ h ^ b $ , putem construi o colecție de greutăți negative care să însumeze unul: $ w ^ b = h ^ b / n $ , unde $ w_i ^ b = h_i ^ b / n $ . Cu această notație putem exprima media eșantionului bootstrap ca $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$
Modul în care sunt alese observațiile pentru un eșantion bootstrap determină distribuția comună pentru $ w ^ b $ . În special, $ h ^ b $ are o distribuție multinomială și astfel $$ (n \, w ^ b) \ sim \ textsf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Prin urmare, putem calcula $ m_b $ extragând $ w ^ b $ din distribuția sa și calculând produsul dot cu $ y $ . Din această nouă perspectivă, se pare că observațiile sunt fixate în timp ce greutățile variază.
În inferența bayesiană, observațiile sunt într-adevăr luate ca fixe, astfel încât această nouă perspectivă pare compatibilă cu abordarea bayesiană. Într-adevăr, calculul mediei conform bootstrap-ului bayesian diferă doar în ceea ce privește distribuția greutăților. (Cu toate acestea, din punct de vedere conceptual, bootstrap-ul bayesian este destul de diferit de versiunea frecventistă.) Datele $ y $ sunt fixe, iar greutățile $ w $ sunt parametrii necunoscuți. S-ar putea să ne intereseze unele funcționale ale datelor care depind de parametrii necunoscuți: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$
Iată o schiță în miniatură a modelului din spatele bootstrap-ului bayesian: distribuția eșantionării pentru observații este multinomială, iar prioritatea pentru greutăți este o distribuție Dirichlet limitativă care pune toată greutatea sa pe vârfurile simplexului. (Unii autori se referă la acest model drept modelul de probabilitate multinomial .)
Acest model produce următoarea distribuție posterioară pentru greutăți: $ $ w \ sim \ textsf {Dirichlet} (1, \ ldots, 1). $$ (Această distribuție este plană peste simplex.) Cele două distribuții pentru greutăți (frecventist și bayezian) sunt destul de similare: au aceleași mijloace și covarianțe similare. Distribuția Dirichlet este „mai lină” decât distribuția multinomială, astfel încât bootstrap-ul bayesian poate fi numit bootstrap netezit. Putem interpreta bootstrap-ul frecventist ca o aproximare la bootstrap-ul bayesian.
Având în vedere distribuția posterioară pentru greutăți, putem aproxima distribuția posterioară a funcției $ \ mu $ prin eșantionare repetată $ w $ din distribuția Dirichlet și calcularea produsului dot cu $ y $ .
Putem adopta cadrul estimării ecuațiilor $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ underline 0, $$ unde $ g (y_i, \ theta) $ este un vector de funcții de estimare care depinde de parametrul necunoscut (vector) $ \ theta $ și $ \ underline 0 $ este un vector de zerouri. Dacă acest sistem de ecuații are o soluție unică pentru $ \ theta $ dat $ y $ și $ w $ , atunci putem calcula distribuția sa posterioară trăgând $ w $ din distribuția sa posterioară și evaluând acea soluție. (Cadrul de estimare a ecuațiilor este utilizat cu probabilitatea empirică și cu metoda generalizată de momente (GMM).)
Cel mai simplu caz este cel pe care l-am tratat deja: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ Pentru medie și varianță, $ \ theta = (\ mu, v) $ avem $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ Configurarea este puțin mai implicată decât cea pentru bootstrap-ul frecventist, motiv pentru care un bayezian ar putea adopta bootstrap-ul frecventist ca o aproximare rapidă.
Comentarii
- Vă mulțumim pentru descrierea foarte detaliată. Personal, aș aprecia o scurtă afirmație cu privire la momentul alegerii fiecăruia.
- Nu este ' t un plat posterior o alegere ciudată? M-aș fi așteptat la o distribuție plană ca mai degrabă decât mai degrabă decât posterior. Nu am putut ' să găsesc nicio discuție pe această temă. Aveți vreun comentariu?
- @Blade – Cred că posteriorul plat este valid deoarece toate punctele de date observate sunt la fel de probabil să fie alese. ' Încerc încă să-mi dau capul în jurul meu, dar acest lucru poate ajuta: sumsar.net/blog/2015/ 04 / …
- @MattWenham Așadar, alegerea priorului este ciudată, iar acest lucru este remarcat chiar de Rubin. Alegerea priorului este setată astfel încât posteriorul să imite bootstrapul clasic. ' nu este faptul că ' nu este valid, ' este doar că nu este mult un poster atunci când ' este o distribuție plană. V-ați aștepta ca o informație posterioară să vă ofere unele informații pe baza unor observații, dar aici avem ceea ce avem este presupunerea că toate valorile distinctive din setul de date au fost respectate.