Bootstrapping vs Bootstrapping bayésien conceptuellement?

Jai du mal à comprendre ce quest un processus de bootstrap bayésien, et en quoi cela différerait de votre bootstrap normal. Et si quelquun pouvait proposer un / examen conceptuel et comparaison des deux, ce serait génial.

Prenons un exemple.

Supposons que nous ayons un ensemble de données X qui vaut [1,2,5,7, 3].

Si nous échantillonnons avec remplacement plusieurs fois pour créer des tailles déchantillon égales à la taille de X (donc, [7,7,2,5,7], [3,5,2,2,7] , etc.), puis nous calculons les moyennes de chacun, est-ce la distribution bootstrap de la moyenne de léchantillon?

Quelle serait la distribution bootstrap bayésienne de cela?

Et comment la distribution bootstrap bayésienne des autres paramètres (variance, etc.) est-elle effectuée de la même manière?

Commentaires

Voir sumsar.net/blog/2015/04/… et projecteuclid.org/euclid.aos/1176345338 , peut-être @ rasmus-b å å je peux vous répondre;)

Réponse

Le bootstrap (fréquentiste) prend les données comme une approximation raisonnable de la distribution inconnue de la population. Par conséquent, la distribution déchantillonnage dune statistique (une fonction des données) peut être approximée en rééchantillonnant à plusieurs reprises les observations avec remplacement et en calculant la statistique pour chaque échantillon.

Soit $ y = (y_1, \ ldots, y_n) $ les données dorigine (dans lexemple donné, $ n = 5 $ ). Soit $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ un exemple de bootstrap. Un tel échantillon aura probablement certaines observations répétées une ou plusieurs fois et dautres observations seront absentes. La moyenne de léchantillon bootstrap est donnée par $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ Cest la distribution de $ m_b $ sur un certain nombre de réplications bootstrap qui est utilisée pour approximer la distribution déchantillonnage de la population inconnue.

Dans lordre pour comprendre le lien entre le bootstrap fréquentiste et le bootstrap bayésien, il est instructif de voir comment calculer $ m_b $ à partir dune perspective différente.

Dans chaque échantillon bootstrap $ y ^ b $ , chaque observation $ y_i $ se produit de 0 à $ n $ fois. Soit $ h_i ^ b $ le nombre de fois où $ y_i $ se produit dans $ y ^ b $ , et laissez $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Ainsi $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ et $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Étant donné $ h ^ b $ , nous pouvons construire une collection de poids non négatifs qui se résument à un: $ w ^ b = h ^ b / n $ , où $ w_i ^ b = h_i ^ b / n $ . Avec cette notation, nous pouvons réexprimer la moyenne de léchantillon bootstrap comme $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$

La manière dont les observations sont choisies pour un échantillon bootstrap détermine la distribution conjointe pour $ w ^ b $ . En particulier, $ h ^ b $ a une distribution multinomiale et donc $$ (n \, w ^ b) \ sim \ textf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Par conséquent, nous pouvons calculer $ m_b $ en tirant $ w ^ b $ à partir de sa distribution et en calculant le produit scalaire avec $ y $ . Dans cette nouvelle perspective, il apparaît que les observations sont fixes alors que les poids varient.

Dans linférence bayésienne, les observations sont en effet considérées comme fixes, donc cette nouvelle perspective semble compatible avec lapproche bayésienne. En effet, le calcul de la moyenne selon le bootstrap bayésien ne diffère que dans la distribution des poids. (Néanmoins, dun point de vue conceptuel, le bootstrap bayésien est assez différent de la version fréquentiste.) Les données $ y $ sont fixes et les poids $ w $ sont les paramètres inconnus. Nous pouvons être intéressés par certaines fonctionnelles des données qui dépendent des paramètres inconnus: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$

Voici une esquisse miniature du modèle derrière le bootstrap bayésien: La distribution déchantillonnage pour les observations est multinomiale et la priori pour les poids est une distribution de Dirichlet limite qui met tout son poids sur les sommets du simplexe. (Certains auteurs appellent ce modèle le modèle de vraisemblance multinomiale .)

Ce modèle produit la distribution postérieure suivante pour les poids: $ $ w \ sim \ textf {Dirichlet} (1, \ ldots, 1). $$ (Cette distribution est plate sur le simplexe.) Les deux distributions des poids (fréquentiste et bayésienne) sont assez similaires: elles ont les mêmes moyennes et des covariances similaires. La distribution Dirichlet est « plus fluide » que la distribution multinomiale, de sorte que le bootstrap bayésien peut être appelé le bootstrap lissé. Nous pouvons interpréter le bootstrap fréquentiste comme une approximation du bootstrap bayésien.

Compte tenu de la distribution a posteriori des poids, nous pouvons approximer la distribution a posteriori de la fonctionnelle $ \ mu $ par échantillonnage répété $ w $ à partir de sa distribution Dirichlet et calcul du produit scalaire avec $ y $ .

Nous pouvons adopter le cadre des équations destimation $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ underline 0, $$ où $ g (y_i, \ theta) $ est un vecteur de fonctions destimation qui dépend du paramètre inconnu (vecteur) $ \ theta $ et $ \ underline 0 $ est un vecteur de zéros. Si ce système déquations a une solution unique pour $ \ theta $ étant donné $ y $ et $ w $ , alors nous pouvons calculer sa distribution postérieure en tirant $ w $ à partir de sa distribution postérieure et en évaluant cette solution. (Le cadre des équations destimation est utilisé avec la vraisemblance empirique et avec la méthode généralisée des moments (GMM).)

Le cas le plus simple est celui que nous avons déjà traité: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ Pour la moyenne et la variance, $ \ theta = (\ mu, v) $ nous avons $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ La configuration est un peu plus complexe que celle du bootstrap fréquentiste, cest pourquoi un bayésien pourrait adopter le bootstrap fréquentiste comme une approximation rapide.

Commentaires

Merci pour la description très détaillée. Personnellement, japprécierais une brève déclaration sur le moment de choisir chacun deux.
Nest-ce pas ' un plat postérieur un choix étrange? Jaurais attendu une distribution plate comme antérieure plutôt que postérieure. Je nai pu ' trouver aucune discussion à ce sujet. Avez-vous des commentaires?
@Blade – Je pense que le postérieur plat est valide car tous les points de données observés sont également susceptibles dêtre choisis. ' jessaie toujours de comprendre moi-même, mais cela peut aider: sumsar.net/blog/2015/ 04 / …
@MattWenham Le choix du prior est donc étrange, et cela est noté par Rubin lui-même. Le choix du prior est défini de sorte que le postérieur imite le bootstrap classique. Il ' nest pas que ' nest pas valide, il ' est juste que cest nest pas beaucoup a posteriori quand elle ' est une distribution plate. Vous vous attendriez à ce quun postérieur vous donne des informations basées sur une observation, mais ici, nous avons lhypothèse que toutes les valeurs distinctives de lensemble de données ont été observées.

Commentaires

Réponse

Commentaires

Laisser un commentaire Annuler la réponse