Bootstrapping vs Bayesian Bootstrapping koncepčně?

Mám potíže s porozuměním, co je Bayesianský bootstrapping a jak by se to lišilo od vašeho běžného bootstrappingu. A pokud by někdo mohl nabídnout intuitivní / koncepční kontrola a srovnání obou, to by bylo skvělé.

Pojďme si vzít příklad.

Řekněme, že máme datovou sadu X, která je [1,2,5,7, 3].

Pokud několikrát vzorkujeme s náhradou, abychom vytvořili velikost vzorku rovnou velikosti X (tedy, [7,7,2,5,7], [3,5,2,2,7] atd.), a potom vypočítáme průměr každého z nich, je to, že distribuce bootstrapu vzorku znamená?

Jaká by to byla bayesiánská distribuce bootstrapu?

A jak se Bayesianská bootstrapová distribuce dalších parametrů (variance atd.) provádí stejným způsobem?

Komentáře

odpověď

(Častý) bootstrap bere data jako přiměřenou aproximaci k neznámému rozdělení populace. Distribuci statistik vzorkování (funkci dat) lze proto aproximovat opakovaným převzorkováním pozorování nahrazením a výpočtem statistik pro každý vzorek.

Nechť $ y = (y_1, \ ldots, y_n) $ označit původní data (v uvedeném příkladu $ n = 5 $ ). Nechť $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ označit ukázku bootstrapu. Takový vzorek bude pravděpodobně mít některá pozorování opakovaná jednou nebo vícekrát a další pozorování budou nepřítomná. Průměr vzorku bootstrap je dán $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ Jedná se o distribuci $ m_b $ přes řadu replikací bootstrapu, která se používá k přiblížení distribuce vzorkování z neznámé populace.

V pořadí abychom pochopili souvislost mezi častým bootstrapem a Bayesianským bootstrapem, je poučné vidět, jak vypočítat $ m_b $ z jiné perspektivy.

V každém vzorku bootstrap $ y ^ b $ je každé pozorování $ y_i $ vyskytuje se kdekoli od 0 do $ n $ krát. Nechť $ h_i ^ b $ označit počet výskytů $ y_i $ v $ y ^ b $ a nechme $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ a $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Vzhledem k $ h ^ b $ můžeme sestavit kolekci nezáporných vah , které jsou součtem jedné: $ w ^ b = h ^ b / n $ , kde $ w_i ^ b = h_i ^ b / n $ . S touto notací můžeme znovu vyjádřit průměr vzorku bootstrapu jako $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$

Způsob, jakým jsou pozorování vybrána pro bootstrap vzorek, určuje společnou distribuci pro $ w ^ b $ . Zejména $ h ^ b $ má multinomickou distribuci a tedy $$ (n \, w ^ b) \ sim \ textyf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Proto můžeme vypočítat $ m_b $ nakreslením $ w ^ b $ z jeho distribuce a výpočtem tečkového produktu s $ y $ . Z této nové perspektivy se zdá, že pozorování jsou pevná , zatímco váhy se mění.

V Bayesianově závěru jsou pozorování skutečně brána jako pevná, takže tento nový pohled se zdá být v souladu s Bayesovským přístupem. Výpočet průměru podle Bayesovského bootstrapu se skutečně liší pouze v rozložení vah. (Nicméně z koncepčního hlediska je Bayesiánský bootstrap zcela odlišný od frekventované verze.) Data $ y $ jsou pevná a váhy $ w $ jsou neznámé parametry. Mohly by nás zajímat některé funkční údaje, které závisí na neznámých parametrech: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$

Zde je miniatura modelu za Bayesianským bootstrapem: Distribuce vzorkování pro pozorování je multinomiální a prioritou pro váhy je omezující Dirichletovo rozdělení, které klade veškerou váhu na vrcholech simplexu. (Někteří autoři označují tento model jako multinomiální model pravděpodobnosti .)

Tento model vytváří následující zadní rozdělení pro váhy: $ $ w \ sim \ textyf {Dirichlet} (1, \ ldots, 1). $$ (Tato distribuce je plochá oproti simplexu.) Dvě distribuce pro váhy (častá a Bayesova) jsou velmi podobné: mají stejné prostředky a podobné kovariance. Dirichletova distribuce je „plynulejší“ než multinomiální distribuce, takže Bayesianský bootstrap lze nazvat vyhlazeným bootstrapem. Můžeme interpretovat častý bootstrap jako aproximaci Bayesianského bootstrapu.

Vzhledem k zadnímu rozdělení hmotností můžeme aproximovat zadní rozdělení funkčního $ \ mu $ opakovaným vzorkováním $ w $ z jeho distribuce Dirichlet a výpočet produktu tečky pomocí $ y $ .

Můžeme přijmout rámec odhadu rovnic $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ podtržení 0, $$ kde $ g (y_i, \ theta) $ je vektor funkcí odhadu , který závisí na neznámém parametru (vektor) $ \ theta $ a $ \ underline 0 $ je vektor nul. Pokud má tento systém rovnic jedinečné řešení pro $ \ theta $ dané $ y $ a $ w $ , pak můžeme vypočítat jeho zadní distribuci nakreslením $ w $ z jeho zadní distribuce a vyhodnocením tohoto řešení. (Rámec odhadu rovnic se používá s empirickou pravděpodobností a se zobecněnou metodou momentů (GMM).)

Nejjednodušší případ je ten, kterým jsme se již zabývali: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ Pro průměr a rozptyl $ \ theta = (\ mu, v) $ máme $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ Nastavení je trochu více zapojeno než nastavení pro častý bootstrap, a proto by Bayesian mohl použít častý bootstrap jako rychlou aproximaci.

Komentáře

  • Děkujeme za velmi podrobný popis. Osobně bych ocenil krátké prohlášení o tom, kdy vybrat každou z nich.
  • Není ' t plochá zadní část lichá volba? Očekával bych ploché rozdělení jako předchozí spíše než zadní. Nemohl jsem ' o tom najít žádné diskuse. Máte nějaké komentáře?
  • @Blade – myslím že plochá zadní část je platná, protože všechny pozorované datové body budou stejně pravděpodobně vybrány. Stále se ' pokouším se o to postarat sám, ale to může pomoci: sumsar.net/blog/2015/ 04 / …
  • @MattWenham Volba předchozího je tedy lichá, což si všiml sám Rubin. Volba předchozího je nastavena tak, aby zadní část napodobovala klasický bootstrap. Není to ' to, že ' to není platné, ' to prostě je není moc zadní, když ' sa rovná distribuce. Očekávali byste, že vám zadní strana poskytne nějaké informace na základě nějakého pozorování, ale tady máme předpoklad, že byly pozorovány všechny charakteristické hodnoty v datové sadě.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *