Mam kilka pytań dotyczących regresji bayesowskiej:
-
Biorąc pod uwagę standardową regresję jako $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Jeśli chcę to zmienić na regresję bayesowską, czy potrzebuję wcześniejszych dystrybucji zarówno dla $ \ beta_0 $, jak i $ \ beta_1 $ (czy nie działa to w ten sposób)?
-
W standardowej regresji należałoby spróbować zminimalizować reszty, aby uzyskać pojedyncze wartości dla $ \ beta_0 $ i $ \ beta_1 $. Jak to się robi w regresji Bayesa?
Naprawdę bardzo się tutaj zmagam:
$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$
Prawdopodobieństwo pochodzi z aktualny zbiór danych (więc jest to mój parametr regresji, ale nie jako pojedyncza wartość, ale jako rozkład prawdopodobieństwa, prawda?). Wcześniejsze pochodzą z poprzednich badań (powiedzmy). Więc otrzymałem równanie:
$$ y = \ beta_1 x + \ varepsilon $$
z $ \ beta_1 $ jest moim prawdopodobieństwem lub późniejszym (czy jest to po prostu całkowicie błędne)?
Po prostu nie mogę zrozumieć, jak standardowa regresja przekształca się w regresję Bayesa.
Odpowiedź
Prosty model regresji liniowej
$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$
można zapisać pod względem modelu probabilistycznego stojącego za nim
$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$
ie zmienna zależna $ Y $ ma rozkład normalny sparametryzowany przez średnią $ \ mu_i $, czyli funkcję liniową $ X $ sparametryzowaną przez $ \ alpha, \ beta $ i odchylenie standardowe $ \ sigma $. Jeśli szacujesz taki model za pomocą zwykłych najmniejszych kwadratów , nie musisz przejmować się formułą probabilistyczną, ponieważ szukasz optymalnych wartości $ \ alpha, \ parametry beta $ poprzez zminimalizowanie kwadratów błędów dopasowanych wartości do wartości przewidywanych. Z drugiej strony, możesz oszacować taki model za pomocą oszacowania maksymalnego prawdopodobieństwa , w którym szukałbyś optymalnych wartości parametrów poprzez maksymalizację funkcji wiarygodności
$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$
gdzie $ \ mathcal {N} $ jest funkcją gęstości rozkładu normalnego obliczoną na $ y_i $ punktów, sparametryzowaną za pomocą $ \ alpha + \ beta x_i $ i odchylenie standardowe $ \ sigma $.
W podejściu bayesowskim zamiast maksymalizować samą funkcję prawdopodobieństwa, przyjęlibyśmy wcześniejsze rozkłady parametrów i użyli twierdzenia Bayesa
$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$
Funkcja prawdopodobieństwa jest taka sama jak powyżej, ale zmiany polegają na założeniu niektórych wcześniejszych dystrybucji dla oszacowanych parametrów $ \ alpha, \ beta, \ sigma $ i uwzględnij je w równaniu
$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {likelihood}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$
„Jakie dystrybucje?” to inne pytanie, ponieważ istnieje nieograniczona liczba opcji. Dla parametrów $ \ alpha, \ beta $ możesz na przykład założyć rozkłady normalne sparametryzowane przez niektóre hiperparametry lub $ t $ -distribution jeśli chcesz założyć cięższe ogony lub równomierny rozkład, jeśli nie chcesz robić wielu założeń, ale chcesz założyć, że parametry mogą być a priori „cokolwiek z podanego zakresu” itd. Dla $ \ sigma $ musisz założyć jakiś wcześniejszy rozkład, który jest ograniczony do większej od zera, ponieważ odchylenie standardowe musi być dodatnie. Może to prowadzić do sformułowania modelu, jak zilustrował poniżej John K. Kruschke.
(źródło: http://www.indiana.edu/~kruschke/BMLR/ )
Podczas gdy z największym prawdopodobieństwem szukałeś jednej optymalnej wartości dla każdego z parametrów, w podejściu bayesowskim stosując twierdzenie Bayesa otrzymujesz późniejszy rozkład parametrów. Ostateczne oszacowanie będzie zależeć od informacji pochodzących z Twoich danych i Twoich wcześniejszych , ale im więcej informacji zawiera Twoje dane, tym mniejszy wpływ są preriami .
Zwróć uwagę, że przy użyciu jednakowych preriów przyjmują one postać $ f (\ theta) \ propto 1 $ po usunięciu stałych normalizujących. To sprawia, że twierdzenie Bayesa jest proporcjonalne do samej funkcji wiarygodności, więc późniejszy rozkład osiągnie swoje maksimum dokładnie w tym samym punkcie, w którym oszacowano maksymalne prawdopodobieństwo.Co za tym idzie, oszacowanie w ramach jednolitych wyprzedzeń będzie takie samo, jak przy użyciu zwykłych najmniejszych kwadratów, ponieważ minimalizacja kwadratowych błędów odpowiada maksymalizacji normalnego prawdopodobieństwa .
Aby oszacować model w podejściu bayesowskim, w niektórych przypadkach możesz użyć sprzężonych przedworów , więc późniejsze jest dostępna bezpośrednio (zobacz przykład tutaj ). Jednak w zdecydowanej większości przypadków późniejsza dystrybucja nie będzie bezpośrednio dostępna i będziesz musiał użyć metod Markov Chain Monte Carlo , aby oszacować model (sprawdź ten przykład użycia algorytmu Metropolisa-Hastingsa do oszacowania parametrów regresji liniowej). Wreszcie, jeśli interesują Cię tylko szacunki punktowe parametrów, możesz użyć maksymalnego oszacowania a posteriori , tj.
$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$
Aby uzyskać bardziej szczegółowy opis regresji logistycznej, możesz sprawdzić Bayesian model logit – intuicyjne wyjaśnienie? wątek.
Aby dowiedzieć się więcej, zapoznaj się z następującymi książkami:
Kruschke, J. (2014). Analiza danych bayesowskich: samouczek z R, JAGSem i Stanem. Academic Press.
Gelman, A., Carlin, JB, Stern, HS i Rubin, DB (2004). Analiza danych bayesowskich. Chapman & Hall / CRC.
Komentarze
- +1 Biorąc pod uwagę sposób sformułowania pytania, ' może trochę podkreślić więcej tej filozoficznej różnicy: w zwykłych metodach najmniejszych kwadratów i oszacowaniu maksymalnego prawdopodobieństwa zaczynamy od pytania ” Jakie są najlepsze wartości $ \ beta_i $ (być może do późniejszego wykorzystania )? ” , podczas gdy w pełnym podejściu bayesowskim zaczynamy od pytania ” Co możemy powiedzieć o nieznanych wartościach $ \ beta_i $? ” , a następnie może przejść do używania maksymalnej średniej a posteriori lub posterior, jeśli potrzebne jest oszacowanie punktowe.
- +1. Kolejną rzeczą, na którą warto zwrócić uwagę w celu wyjaśnienia związku między podejściami bayesowskimi i OLS, jest to, że OLS można rozumieć jako późniejszą średnią pod płaskim wcześniejszym (przynajmniej o ile rozumiem). Byłoby wspaniale, gdybyś mógł nieco rozwinąć tę kwestię w swojej odpowiedzi.
- @amoeba it ' to dobra uwaga, ' pomyślę o tym. Ale z drugiej strony nie ' nie chcę, aby odpowiedź była zbyt długa, więc warto przejść do szczegółów.
- @amoeba Do Twojej wiadomości, ja dodał krótki komentarz na ten temat.
Odpowiedź
Biorąc pod uwagę zestaw danych $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ gdzie $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, a Bayesowska regresja liniowa modeluje problem w następujący sposób:
Prior: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$
$ w $ to wektor $ (w_1, \ ldots, w_d) ^ T $, więc poprzednia dystrybucja jest wielowymiarowym Gaussem; a $ I_d $ to macierz tożsamości $ d \ times d $.
Prawdopodobieństwo: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$
Zakładamy, że $ Y_i \ perp Y_j | w, i \ neq j $
Na razie zamiast wariancji użyjemy dokładności, $ a = 1 / \ sigma ^ 2 $ i $ b = 1 / \ sigma_w ^ 2 $. Zakładamy również, że znane są $ a, b $.
Wcześniejsze można podać jako $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$
I prawdopodobieństwo $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$
gdzie $ y = (y_1, \ ldots, y_N) ^ T $ i $ A $ to $ n \ razy d $ macierz, gdzie i -ty wiersz to $ x_i ^ T $.
Wtedy późniejszy to $$ p (w | D) \ propto p (D | w) p (w) $$
Po wielu obliczeniach odkrywamy, że
$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$
gdzie ($ \ Lambda $ to macierz dokładności)
$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$
Zwróć uwagę, że $ \ mu $ jest równe $ w_ {MAP} $ regularnej regresji liniowej, ponieważ dla Gaussa, średnia jest równa modowi.
Możemy również wykonać algebrę na $ \ mu $ i otrzymać następującą równość ($ \ Lambda = a A ^ TA + bI_d $):
$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$
i porównaj z $ w_ {MLE} $:
$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$
Dodatkowe wyrażenie w $ \ mu $ odpowiada poprzedniemu. Jest to podobne do wyrażenia dla regresji Ridge, dla specjalnego przypadku, gdy $ \ lambda = \ frac {b} {a} $. Regresja grzbietowa jest bardziej ogólna, ponieważ technika pozwala wybrać niewłaściwe przedwczesne (z perspektywy bayesowskiej).
Dla predykcyjnego późniejszego rozkładu:
$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$
można obliczyć, że
$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$
Źródła: Lunn et al. Książka BŁĘDÓW
Aby skorzystać z narzędzia MCMC, takiego jak JAGS / Stan, sprawdź Kruschke „s Przeprowadzanie analizy danych bayesowskich
Komentarze
- Dziękuję jpneto. Uważam, że to świetna odpowiedź, ale jeszcze jej nie rozumiem z powodu braku matematyki. wiedzy. Ale na pewno przeczytam go ponownie po zdobyciu kilku umiejętności matematycznych.
- To bardzo miłe, ale założenie, że precyzja jest znana, jest nieco rzadkie. Isn ' czy znacznie częściej przyjmuje się odwrotny rozkład gamma dla wariancji, tj. rozkład gamma dla precyzji?
- +1. Czy możesz coś więcej skomentować na temat ” Regresja grzbietu jest bardziej ogólna, ponieważ technika może wybierać niewłaściwe wcześniejsze „? Nie ' nie rozumiem. myśl RR = Gaussian (właściwy) przed $ w $.
- @amoeba: Gaussian prior to $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ ale $ \ lambda $ mogą być równe zero, co skutkuje niewłaściwym wyprzedzeniem, tj. skutkuje MLE.
- @DeltaIV: jasne, kiedy mamy niepewność co do parametru, możemy go zamodelować za pomocą wcześniejszego. Założeniem znanej precyzji jest ułatwienie znalezienia rozwiązania analitycznego. Zazwyczaj te rozwiązania analityczne nie są możliwe i musimy użyć przybliżeń, takich jak MCMC lub pewna technika wariacyjna.