Bootstrapping versus Bayesian Bootstrapping conceptueel?

Ik “heb moeite om te begrijpen wat een Bayesian Bootstrapping-proces is, en hoe dat zou verschillen van je normale bootstrapping. En of iemand een intuïtieve / conceptuele beoordeling en vergelijking van beide, dat zou geweldig zijn.

Laten we een voorbeeld nemen.

Stel dat we een dataset X hebben die [1,2,5,7, 3].

Als we meerdere keren bemonsteren met vervanging om steekproefgroottes te maken die gelijk zijn aan de grootte van X (dus [7,7,2,5,7], [3,5,2,2,7] , etc), en dan berekenen we de gemiddelden van elk, is dat de bootstrap-distributie van het steekproefgemiddelde?

Wat zou de bayesiaanse bootstrap-distributie daarvan zijn?

En hoe wordt de bayesiaanse bootstrap-distributie van andere parameters (variantie, enz.) op dezelfde manier gedaan?

Reacties

Antwoord

De (frequentistische) bootstrap neemt de gegevens als een redelijke benadering van de onbekende populatie-verdeling. Daarom kan de steekproefverdeling van een statistiek (een functie van de gegevens) worden benaderd door de waarnemingen herhaaldelijk opnieuw te bemonsteren met vervanging en de statistiek voor elke steekproef te berekenen.

Laat $ y = (y_1, \ ldots, y_n) $ de originele gegevens aanduiden (in het gegeven voorbeeld $ n = 5 $ ). Laat $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ een bootstrap-voorbeeld aanduiden. Bij een dergelijke steekproef zullen sommige waarnemingen waarschijnlijk een of meerdere keren worden herhaald en zullen andere waarnemingen ontbreken. Het gemiddelde van het bootstrap-voorbeeld wordt gegeven door $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ Het is de verdeling van $ m_b $ over een aantal bootstrap-replicaties die wordt gebruikt om de steekproefverdeling van de onbekende populatie te benaderen.

om het verband tussen de frequentistische bootstrap en de Bayesiaanse bootstrap te begrijpen, is het leerzaam om te zien hoe je $ m_b $ vanuit een ander perspectief kunt berekenen.

In elk bootstrap-voorbeeld $ y ^ b $ , elke observatie $ y_i $ komt overal voor van 0 tot $ n $ keer. Laat $ h_i ^ b $ het aantal keren aangeven dat $ y_i $ voorkomt in $ y ^ b $ , en laat $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Dus $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ en $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Gegeven $ h ^ b $ , kunnen we een verzameling niet-negatieve gewichten samenstellen die optellen tot één: $ w ^ b = h ^ b / n $ , waarbij $ w_i ^ b = h_i ^ b / n $ . Met deze notatie kunnen we het gemiddelde van de bootstrap-steekproef opnieuw uitdrukken als $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$

De manier waarop de waarnemingen worden gekozen voor een bootstrap-steekproef bepaalt de gezamenlijke verdeling voor $ w ^ b $ . In het bijzonder heeft $ h ^ b $ een multinominale distributie en dus $$ (n \, w ^ b) \ sim \ textf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Daarom kunnen we $ m_b $ door $ w ^ b $ uit de distributie te trekken en het puntproduct te berekenen met $ y $ . Vanuit dit nieuwe perspectief blijkt dat de waarnemingen gefixeerd zijn terwijl de gewichten variëren.

In de Bayesiaanse gevolgtrekking worden de waarnemingen inderdaad als vast beschouwd, dus dit nieuwe perspectief lijkt in overeenstemming met de Bayesiaanse benadering. In feite verschilt de berekening van het gemiddelde volgens de Bayesiaanse bootstrap alleen in de verdeling van de gewichten. (Desalniettemin is de Bayesiaanse bootstrap conceptueel gezien heel anders dan de frequentistische versie.) De gegevens $ y $ zijn vast en de gewichten $ w $ zijn de onbekende parameters. We zijn wellicht geïnteresseerd in enkele functionele gegevens die afhankelijk zijn van de onbekende parameters: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$

Hier is een miniatuurschets van het model achter de Bayesiaanse bootstrap: de steekproefverdeling voor de waarnemingen is multinominaal en de prior voor de gewichten is een beperkende Dirichlet-verdeling die al zijn gewicht legt op de hoekpunten van de simplex. (Sommige auteurs noemen dit model het multinominale waarschijnlijkheidsmodel .)

Dit model geeft de volgende posterieure verdeling voor de gewichten: $ $ w \ sim \ textf {Dirichlet} (1, \ ldots, 1). $$ (Deze verdeling is vlak over de simplex.) De twee verdelingen voor de gewichten (frequentist en Bayesian) lijken veel op elkaar: ze hebben dezelfde middelen en vergelijkbare covarianties. De Dirichlet-distributie is “soepeler” dan de multinominale distributie, dus de Bayesiaanse bootstrap kan de afgevlakte bootstrap worden genoemd. We kunnen de frequentistische bootstrap interpreteren als een benadering van de Bayesiaanse bootstrap.

Gezien de posterieure distributie van de gewichten, kunnen we de posterieure distributie van de functionele $ \ mu $ benaderen door herhaaldelijk te bemonsteren $ w $ uit de Dirichlet-distributie en het puntproduct berekenen met $ y $ .

We kunnen het raamwerk van schattingsvergelijkingen $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ onderstreep 0, $$ waarbij $ g (y_i, \ theta) $ een vector is van schattingsfuncties die afhankelijk is van de onbekende parameter (vector) $ \ theta $ en $ \ underline 0 $ is een vector van nullen. Als dit systeem van vergelijkingen een unieke oplossing heeft voor $ \ theta $ gegeven $ y $ en $ w $ , dan kunnen we de posterieure distributie berekenen door $ w $ uit de posterieure distributie te trekken en die oplossing te evalueren. (Het raamwerk voor het schatten van vergelijkingen wordt gebruikt met empirische waarschijnlijkheid en met gegeneraliseerde momentenmethode (GMM).)

Het eenvoudigste geval is het geval dat we al hebben behandeld: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ Voor het gemiddelde en de variantie, $ \ theta = (\ mu, v) $ we hebben $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ De opzet is een beetje ingewikkelder dan die voor de frequentistische bootstrap, daarom zou een Bayesiaan de frequentistische bootstrap als een snelle benadering kunnen gebruiken.

Reacties

  • Bedankt voor de zeer gedetailleerde beschrijving. Persoonlijk zou ik een korte verklaring op prijs stellen wanneer ik ze allemaal moet kiezen.
  • Is ' t een vlakke posterieur een vreemde keuze? Ik had eerder een vlakke verdeling verwacht dan posterieur. Ik kon ' geen discussies hierover vinden. Heeft u opmerkingen?
  • @Blade – Ik denk dat de vlakke posterieure geldig is, omdat alle waargenomen gegevenspunten even waarschijnlijk zullen worden gekozen. Ik ' m probeer er zelf nog steeds mijn hoofd omheen te krijgen, maar dit kan helpen: sumsar.net/blog/2015/ 04 / …
  • @MattWenham Dus de keuze van prior is vreemd, en dit wordt door Rubin zelf opgemerkt. De keuze van prior is zo ingesteld dat de posterior de klassieke bootstrap nabootst. Het ' is niet dat het ' s niet geldig is, het is ' alleen dat het is niet echt een posterieur als het ' een vlakke verdeling is. Je zou verwachten dat een posterieur je wat informatie geeft op basis van enige observatie, maar hier hebben we de aanname dat alle onderscheidende waarden in de dataset zijn nageleefd.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *