Bootstrap vs Bootstrap bayesiano concettualmente?

Non riesco a capire cosa sia un processo di bootstrap bayesiano e come questo differirebbe dal tuo normale bootstrap. E se qualcuno potesse offrire un intuitivo / revisione concettuale e confronto di entrambi, sarebbe fantastico.

Facciamo un esempio.

Supponiamo di avere un set di dati X che è [1,2,5,7, 3].

Se campioniamo con la sostituzione più volte per creare dimensioni campione uguali alla dimensione di X (quindi, [7,7,2,5,7], [3,5,2,2,7] , ecc.), e poi calcoliamo i mezzi di ciascuno, è la media della distribuzione bootstrap del campione?

Quale sarebbe la distribuzione bootstrap bayesiana di quello?

E come viene eseguita la distribuzione bootstrap bayesiana di altri parametri (varianza, ecc.) nello stesso modo?

Commenti

Rispondi

Il bootstrap (frequentista) prende i dati come una ragionevole approssimazione alla distribuzione della popolazione sconosciuta. Pertanto, la distribuzione campionaria di una statistica (una funzione dei dati) può essere approssimata ricampionando ripetutamente le osservazioni con sostituzione e calcolando la statistica per ciascun campione.

Siano $ y = (y_1, \ ldots, y_n) $ i dati originali (nellesempio fornito, $ n = 5 $ ). Lascia che $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ denoti un esempio di bootstrap. Un campione di questo tipo avrà probabilmente alcune osservazioni ripetute una o più volte e altre osservazioni saranno assenti. La media del campione di bootstrap è data da $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ È la distribuzione di $ m_b $ su un numero di repliche bootstrap che viene utilizzata per approssimare la distribuzione del campionamento dalla popolazione sconosciuta.

In ordine per comprendere la connessione tra il bootstrap frequentista e il bootstrap bayesiano, è istruttivo vedere come calcolare $ m_b $ da una prospettiva diversa.

In ogni esempio di bootstrap $ y ^ b $ , ogni osservazione $ y_i $ ricorre ovunque da 0 a $ n $ volte. Indica $ h_i ^ b $ il numero di volte in cui $ y_i $ si verifica in $ y ^ b $ e lascia $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Quindi $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ e $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Dato $ h ^ b $ , possiamo costruire una raccolta di pesi non negativi che sommano a uno: $ w ^ b = h ^ b / n $ , dove $ w_i ^ b = h_i ^ b / n $ . Con questa notazione possiamo riesprimere la media dellesempio di bootstrap come $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$

Il modo in cui le osservazioni vengono scelte per un campione bootstrap determina la distribuzione congiunta per $ w ^ b $ . In particolare, $ h ^ b $ ha una distribuzione multinomiale e quindi $$ (n \, w ^ b) \ sim \ textf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Pertanto, possiamo calcolare $ m_b $ disegnando $ w ^ b $ dalla sua distribuzione e calcolando il prodotto puntuale con $ y $ . Da questa nuova prospettiva, sembra che le osservazioni siano fisse mentre i pesi variano.

Nellinferenza bayesiana, le osservazioni sono effettivamente prese come fisse, quindi questa nuova prospettiva sembra congeniale allapproccio bayesiano. Infatti, il calcolo della media secondo il bootstrap bayesiano differisce solo nella distribuzione dei pesi. (Tuttavia, da un punto di vista concettuale il bootstrap bayesiano è abbastanza diverso dalla versione frequentista.) I dati $ y $ sono fissi e i pesi $ w $ sono i parametri sconosciuti. Potremmo essere interessati ad alcuni funzionali dei dati che dipendono da parametri sconosciuti: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$

Ecco uno schizzo in miniatura del modello dietro il bootstrap bayesiano: La distribuzione del campionamento per le osservazioni è multinomiale e la precedente per i pesi è una distribuzione di Dirichlet limitante che mette tutto il suo peso sui vertici del simplex. (Alcuni autori si riferiscono a questo modello come al modello di probabilità multinomiale .)

Questo modello produce la seguente distribuzione a posteriori per i pesi: $ $ w \ sim \ textf {Dirichlet} (1, \ ldots, 1). $$ (Questa distribuzione è piatta sul simplex.) Le due distribuzioni per i pesi (frequentista e bayesiano) sono abbastanza simili: hanno le stesse medie e covarianze simili. La distribuzione di Dirichlet è “più liscia” della distribuzione multinomiale, quindi il bootstrap bayesiano può essere chiamato bootstrap levigato. Possiamo interpretare il bootstrap frequentista come unapprossimazione del bootstrap bayesiano.

Data la distribuzione a posteriori dei pesi, possiamo approssimare la distribuzione a posteriori del funzionale $ \ mu $ ripetendo il campionamento $ w $ dalla sua distribuzione Dirichlet e calcolare il prodotto puntuale con $ y $ .

Possiamo adottare la struttura della stima delle equazioni $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ underline 0, $$ dove $ g (y_i, \ theta) $ è un vettore di funzioni di stima che dipende dal parametro sconosciuto (vettore) $ \ theta $ e $ \ underline 0 $ è un vettore di zeri. Se questo sistema di equazioni ha una soluzione univoca per $ \ theta $ data $ y $ e $ w $ , quindi possiamo calcolare la sua distribuzione a posteriori tracciando $ w $ dalla sua distribuzione a posteriori e valutando quella soluzione. (Il framework di stima delle equazioni viene utilizzato con verosimiglianza empirica e con il metodo dei momenti generalizzato (GMM).)

Il caso più semplice è quello che abbiamo già trattato: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ Per la media e la varianza, $ \ theta = (\ mu, v) $ abbiamo $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ La configurazione è un po più complicata di quella per il bootstrap frequentista, motivo per cui un bayesiano potrebbe adottare il bootstrap frequentista come una rapida approssimazione.

Commenti

  • Grazie per la descrizione molto dettagliata. Personalmente apprezzerei una breve dichiarazione su quando scegliere ciascuno di essi.
  • ' non è un piatto posteriore una scelta strana? Mi sarei aspettato una distribuzione piatta come anteriore piuttosto che posteriore. Non sono riuscito ' a trovare discussioni su questo. Hai qualche commento?
  • @Blade – penso che la parte posteriore piatta sia valida perché è probabile che vengano scelti tutti i punti dati osservati. ' sto ancora cercando di capire da solo, ma questo potrebbe essere daiuto: sumsar.net/blog/2015/ 04 / …
  • @MattWenham Quindi la scelta del precedente è strana, e questo è notato dallo stesso Rubin. La scelta del priore è impostata in modo che il posteriore imiti il classico bootstrap. ' non è ' non è valido, è ' è proprio così non è molto posteriore quando ' è una distribuzione piatta. Ti aspetteresti che un posteriore ti dia alcune informazioni basate su alcune osservazioni, ma qui ciò che abbiamo è lipotesi che tutti i valori distintivi nel set di dati siano stati osservati.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *