Mam problem ze zrozumieniem, czym jest bayesowski proces ładowania początkowego i czym mógłby się on różnić od zwykłego ładowania. A jeśli ktoś mógłby zaoferować intuicyjny / Przegląd koncepcyjny i porównanie obu, byłoby świetnie.
Weźmy przykład.
Załóżmy, że mamy zbiór danych X, który wynosi [1, 2, 5, 7, 3].
Jeśli wielokrotnie próbujemy z wymianą, aby utworzyć próbki o rozmiarach równych rozmiarowi X (czyli [7,7,2,5,7], [3,5,2,2,7] itp.), a następnie obliczamy średnie każdego z nich, czy to rozkład ładowania początkowego średniej próbki?
Jaka byłaby tego bayesowska dystrybucja bootstrap?
A jak wygląda bayesowska dystrybucja innych parametrów (wariancja itp.) w taki sam sposób?
Komentarze
- Patrz sumsar.net/blog/2015/04/… i projecteuclid.org/euclid.aos/1176345338 , może @ rasmus-b å å th może Ci odpowiedzieć;)
Odpowiedź
Metoda bootstrap (częsta) traktuje dane jako rozsądne przybliżenie nieznanego rozkładu populacji. Dlatego rozkład próbkowania statystyki (funkcja danych) może być przybliżony przez wielokrotne próbkowanie obserwacji z zastąpieniem i obliczeniem statystyki dla każdej próbki.
Niech $ y = (y_1, \ ldots, y_n) $ oznacza oryginalne dane (w podanym przykładzie $ n = 5 $ ). Niech $ y ^ b = (y_1 ^ b, \ ldots, y_n ^ b) $ oznacza próbkę bootstrap. Taka próbka prawdopodobnie będzie miała pewne obserwacje powtórzone raz lub więcej razy, a inne obserwacje będą nieobecne. Średnia z próbki bootstrap jest podana przez $$ m_b = \ frac {1} {n} \ sum_ {i = 1} ^ n y_i ^ b. $$ Jest to rozkład $ m_b $ w szeregu replikacji ładowania początkowego, który jest używany do przybliżenia rozkładu próbkowania z nieznanej populacji.
W celu aby zrozumieć związek między bootstrapem częstoistycznym a bootstrapem bayesowskim, pouczające jest zobaczenie, jak obliczyć $ m_b $ z innej perspektywy.
W każdej próbce bootstrap $ y ^ b $ , każda obserwacja $ y_i $ występuje w dowolnym miejscu od 0 do $ n $ razy. Niech $ h_i ^ b $ oznacza, ile razy $ y_i $ występuje w $ y ^ b $ i niech $ h ^ b = (h_1 ^ b, \ ldots, h_n ^ b) $ . Zatem $ h_i ^ b \ in \ {0, 1, \ ldots, n-1, n \} $ i $ \ sum_ {i = 1} ^ n h_i ^ b = n $ . Biorąc pod uwagę $ h ^ b $ , możemy utworzyć zbiór nieujemnych wag , które sumują się do jednej: $ w ^ b = h ^ b / n $ , gdzie $ w_i ^ b = h_i ^ b / n $ . Za pomocą tej notacji możemy ponownie wyrazić średnią z próbki bootstrap jako $$ m_b = \ sum_ {i = 1} ^ n w_i ^ b \, y_i. $$
Sposób, w jaki obserwacje są wybierane do próbki bootstrap, określa wspólny rozkład dla $ w ^ b $ . W szczególności $ h ^ b $ ma rozkład wielomianowy, a zatem $$ (n \, w ^ b) \ sim \ textf {Multinomial} (n, (1 / n) _ {i = 1} ^ n). $$ Dlatego możemy obliczyć $ m_b $ rysując $ w ^ b $ z jego dystrybucji i obliczając iloczyn skalarny za pomocą $ y $ . Z tej nowej perspektywy wydaje się, że obserwacje są stałe , podczas gdy wagi się zmieniają.
W wnioskowaniu bayesowskim obserwacje są rzeczywiście uznawane za ustalone, więc ta nowa perspektywa wydaje się być zgodna z podejściem bayesowskim. W istocie obliczenie średniej według metody bootstrap bayesowskiej różni się jedynie rozkładem wag. (Niemniej z koncepcyjnego punktu widzenia metoda bootstrap bayesowska różni się znacznie od wersji częstoistycznej). Dane $ y $ są stałe, a wagi $ w $ to nieznane parametry. Możemy być zainteresowani niektórymi funkcjonalnymi danymi, które zależą od nieznanych parametrów: $$ \ mu = \ sum_ {i = 1} ^ n w_i \ , y_i.$$
Oto miniaturowy szkic modelu za bootstrapem bayesowskim: Rozkład próbkowania dla obserwacji jest wielomianowy, a poprzednikiem dla wag jest ograniczający rozkład Dirichleta, który kładzie całą jego wagę na wierzchołkach simplex. (Niektórzy autorzy określają ten model jako wielomianowy model prawdopodobieństwa .)
Ten model daje następujący późniejszy rozkład wag: $ $ w \ sim \ textf {Dirichlet} (1, \ ldots, 1). $$ (Ten rozkład jest płaski na simplex.) Dwa rozkłady wag (częstość i bayesowski) są dość podobne: mają te same średnie i podobne kowariancje. Dystrybucja Dirichleta jest „gładsza” niż dystrybucja wielomianowa, więc bootstrap bayesowski można nazwać wygładzonym ładowaniem początkowym. Możemy zinterpretować częstość ładowania początkowego jako przybliżenie bootstrapa bayesowskiego.
Biorąc pod uwagę późniejszy rozkład wag, możemy przybliżyć późniejszy rozkład funkcjonalnego $ \ mu $ przez wielokrotne próbkowanie $ w $ z dystrybucji Dirichleta i obliczając iloczyn skalarny za pomocą $ y $ .
Możemy przyjąć ramy szacowania równań $$ \ sum_ {i = 1} ^ n w_i \, g (y_i, \ theta) = \ underline 0, $$ gdzie $ g (y_i, \ theta) $ jest wektorem funkcji szacujących zależnych od nieznanego parametru (wektora) $ \ theta $ i $ \ underline 0 $ to wektor zer. Jeśli ten układ równań ma unikalne rozwiązanie dla $ \ theta $ , biorąc pod uwagę $ y $ i $ w $ , wtedy możemy obliczyć późniejszą dystrybucję, rysując $ w $ z późniejszej dystrybucji i oceniając to rozwiązanie. (Ramy szacowania równań są używane z empirycznym prawdopodobieństwem i uogólnioną metodą momentów (GMM).)
Najprostszym przypadkiem jest ten, z którym już mieliśmy do czynienia: $$ \ sum_ {i = 1} ^ n w_i \, (y_i – \ mu) = 0. $$ Dla średniej i wariancji $ \ theta = (\ mu, v) $ mamy $$ g (y_i, \ theta) = \ begin {pmatrix} y_i – \ mu \\ (y_i – \ mu) ^ 2 – v \ end {pmatrix}. $$ Konfiguracja jest nieco bardziej skomplikowana niż w przypadku bootstrapu częstoistycznego, dlatego bayesjanin może przyjąć metodę bootstrap częstoistą jako szybkie przybliżenie.
Komentarze
- Dziękuję za bardzo szczegółowy opis. Osobiście byłbym wdzięczny za krótkie stwierdzenie, kiedy wybrać każdy z nich.
- Czy nie ' t płaski tył nie jest dziwnym wyborem? Spodziewałbym się płaskiej dystrybucji, jak wcześniej, a nie później. Nie udało mi się ' znaleźć żadnych dyskusji na ten temat. Czy masz jakieś uwagi?
- @Blade – myślę , że płaski tył jest ważny, ponieważ wszystkie obserwowane punkty danych są równie prawdopodobne, że zostaną wybrane. Wciąż ' wciąż próbuję to obejść, ale to może pomóc: sumsar.net/blog/2015/ 04 / …
- @MattWenham Zatem wybór wcześniejszego jest dziwny, co zauważa sam Rubin. Wybór przedniego jest ustawiony tak, aby tylny naśladował klasyczny bootstrap. To ' nie oznacza, że ' jest nieprawidłowe, to ' po prostu to nie jest dużo późniejsza, gdy ' jest płaską dystrybucją. Można by oczekiwać, że późniejsze informacje będą oparte na pewnych obserwacjach, ale tutaj mamy założenie, że wszystkie charakterystyczne wartości w zbiorze danych zostały zaobserwowane.