Mám několik otázek ohledně Bayesovské regrese:
-
Vzhledem ke standardní regrese jako $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Pokud to chci změnit na Bayesiánskou regresi, potřebuji předchozí distribuce jak pro $ \ beta_0 $, tak pro $ \ beta_1 $ (nebo to takto nefunguje)?
-
Ve standardní regresi by se člověk pokusil minimalizovat zbytky, aby získal jednotlivé hodnoty pro $ \ beta_0 $ a $ \ beta_1 $. Jak je to provedeno v Bayesově regresi?
Tady se opravdu hodně potýkám:
$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$
Pravděpodobnost pochází z aktuální datová sada (je to tedy můj regresní parametr, ale ne jako jedna hodnota, ale jako rozdělení pravděpodobnosti, že?). Prior pochází z předchozího výzkumu (řekněme). Takže jsem dostal tuto rovnici:
$$ y = \ beta_1 x + \ varepsilon $$
s $ \ beta_1 $ být mojí pravděpodobností nebo pozdější (nebo je to prostě úplně špatné)?
Prostě nechápu, jak se standardní regrese transformuje na Bayesovu.
Odpověď
lze napsat jednoduchý lineární regresní model
$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$
pokud jde o pravděpodobnostní model, který za tím stojí
$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$
tj závislá proměnná $ Y $ sleduje normální rozdělení parametrizované průměrem $ \ mu_i $, což je lineární funkce $ X $ parametrizovaná $ \ alpha, \ beta $ a směrodatnou odchylkou $ \ sigma $. Pokud takový model odhadnete pomocí obyčejných nejmenších čtverců , nemusíte si dělat starosti s pravděpodobnostní formulací, protože hledáte optimální hodnoty $ \ alpha, \ Parametry beta $ minimalizací čtvercových chyb přizpůsobených hodnot na předpokládané hodnoty. Na druhou stranu můžete takový model odhadnout pomocí odhadu maximální pravděpodobnosti , kde byste hledali optimální hodnoty parametrů maximalizací funkce pravděpodobnosti
$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$
kde $ \ mathcal {N} $ je funkce hustoty normálního rozdělení hodnocená na $ y_i $ body, parametrizovaná pomocí $ \ alpha + \ beta x_i $ a směrodatná odchylka $ \ sigma $.
V Bayesianském přístupu bychom místo maximální funkce pravděpodobnosti předpokládali předchozí distribuce parametrů a použili Bayesovu větu
$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$
Funkce pravděpodobnosti je stejná jako výše, ale co se změní, předpokládáte některé předchozí distribuce pro odhadované parametry $ \ alpha, \ beta, \ sigma $ a zahrňte je do rovnice
$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {likelihood}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$
„Jaké distribuce?“ je jiná otázka, protože existuje neomezený počet možností. U parametrů $ \ alpha, \ beta $ můžete například předpokládat normální distribuce parametrizované některými hyperparametry nebo $ t $ -distribuce , pokud chcete předpokládat těžší ocasy, nebo rovnoměrné rozdělení, pokud nechcete dělat velké předpoklady, ale chcete předpokládat, že parametry mohou být a priori „cokoli v daném rozsahu“ atd. U $ \ sigma $ musíte předpokládat nějakou předchozí distribuci, která je ohraničena na větší než nulu, protože směrodatná odchylka musí být kladná. To může vést k modelové formulaci, jak to ilustruje John K. Kruschke.
(zdroj: http://www.indiana.edu/~kruschke/BMLR/ )
Zatímco s maximální pravděpodobností jste hledali jedinou optimální hodnotu pro každý z parametrů, v Bayesianově přístupu pomocí Bayesovy věty získáte posterior rozdělení parametrů. Konečný odhad bude záviset na informacích, které pocházejí z vašich údajů a od vašich předchozích , ale čím více informací obsahuje vaše data, tím méně vlivný jsou předchozí .
Všimněte si, že při použití uniformních priorit mají po zrušení normalizačních konstant formu $ f (\ theta) \ propto 1 $. Díky tomu je Bayesova věta úměrná samotné funkci pravděpodobnosti, takže zadní distribuce dosáhne svého maxima přesně ve stejném bodě jako odhad maximální pravděpodobnosti.Co bude následovat, odhad v uniformních předchůdcích bude stejný jako při použití běžných nejmenších čtverců, protože minimalizace čtvercových chyb odpovídá maximalizaci normální pravděpodobnosti .
Chcete-li v některých případech odhadnout model v bayesovském přístupu, můžete použít konjugovat předchozí , takže posterior distribuce je přímo k dispozici (viz příklad zde ). Ve velké většině případů však zadní distribuce nebude přímo k dispozici a budete muset použít metody Markov Chain Monte Carlo pro odhad model (zkontrolujte tento příklad použití algoritmu Metropolis-Hastings k odhadu parametrů lineární regrese). Nakonec, pokud vás zajímají pouze bodové odhady parametrů, můžete použít maximální a posteriori odhad , tj.
$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$
Podrobnější popis logistické regrese můžete zkontrolovat pomocí Bayesovský logitový model – intuitivní vysvětlení? vlákno.
Další informace najdete v následujících knihách:
Kruschke, J. (2014). Provádění Bayesovské analýzy dat: Výukový program s R, JAGS a Stanem. Academic Press.
Gelman, A., Carlin, JB, Stern, HS a Rubin, DB (2004). Bayesovská analýza dat. Chapman & Hall / CRC.
Komentáře
- +1 Vzhledem ke způsobu, jakým je otázka uvedena, bych mohl ‚ d trochu zdůraznit více tento filozofický rozdíl: V běžných odhadech nejmenších čtverců a maximální pravděpodobnosti začínáme otázkou “ Jaké jsou nejlepší hodnoty pro $ \ beta_i $ (možná pro pozdější použití )? “ , zatímco v úplném bayesovském přístupu začneme otázkou “ Co můžeme říci o neznámých hodnotách $ \ beta_i $? “ a pak možná přistoupit k použití maxima a posteriori nebo posteriorního průměru, pokud je zapotřebí bodový odhad.
- +1. Ještě jedna věc, která by mohla být užitečná pro objasnění vztahu mezi přístupy Bayesian a OLS, je, že OLS lze chápat jako zadní průměr pod plochým předchůdcem (alespoň pokud chápu). Bylo by skvělé, kdybyste to ve své odpovědi mohli trochu rozvinout.
- @amoeba je to ‚ dobré, já ‚ Přemýšlím o tom. Ale na druhou stranu nechci ‚ odpovědět příliš otevřeně, takže je třeba jít do podrobností.
- @amoeba FYI, já přidal k tomu krátký komentář.
Odpověď
Vzhledem k datové sadě $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $, kde $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, Bayesiánská lineární regrese modeluje problém následujícím způsobem:
Prior: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$
$ w $ je vektor $ (w_1, \ ldots, w_d) ^ T $, takže předchozí distribuce je multivariační Gaussian; a $ I_d $ je matice identity $ d \ krát d $.
Pravděpodobnost: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$
Předpokládáme, že $ Y_i \ perp Y_j | w, i \ neq j $
Prozatím místo variance použijeme přesnost, $ a = 1 / \ sigma ^ 2 $ a $ b = 1 / \ sigma_w ^ 2 $. Předpokládáme také, že $ a, b $ jsou známé.
Předchozí lze označit jako $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$
A pravděpodobnost $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$
kde $ y = (y_1, \ ldots, y_N) ^ T $ a $ A $ je matice $ n \ krát d $, kde i -tý řádek je $ x_i ^ T $.
Pak je zadek $$ p (w | D) \ propto p (D | w) p (w) $$
Po mnoha výpočtech zjistíme, že
$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$
kde ($ \ Lambda $ je matice přesnosti)
$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$
Všimněte si, že $ \ mu $ se rovná $ w_ {MAP} $ pravidelné lineární regrese, je to proto, pro Gaussian je průměr roven režimu.
Také můžeme udělat nějakou algebru přes $ \ mu $ a získat následující rovnost ($ \ Lambda = a A ^ TA + bI_d $):
$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$
a porovnejte s $ w_ {MLE} $:
$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$
Extra výraz v $ \ mu $ odpovídá předchozímu. Toto je podobné výrazu pro Ridgeovu regresi pro speciální případ, kdy $ \ lambda = \ frac {b} {a} $. Hřebenová regrese je obecnější, protože tato technika může zvolit nevhodné priority (z Bayesovské perspektivy).
Pro prediktivní zadní rozdělení:
$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$
je možné vypočítat, že
$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$
Odkaz: Lunn et al. Kniha BUGS
Pro použití nástroje MCMC, jako je JAGS / Stan, zkontrolujte, zda Kruschke provádí Bayesianskou analýzu dat
Komentáře
- Děkuji jpneto. Mám pocit, že je to skvělá odpověď, ale zatím jí nerozumím kvůli nedostatku matematiky – znalosti. Ale určitě si to přečtu znovu po získání některých matematických dovedností.
- To je velmi pěkné, ale předpoklad, že je známa přesnost, je trochu neobvyklý. Isn ‚ Je mnohem běžnější předpokládat inverzní rozdělení gama pro odchylku, tj. rozdělení gama pro přesnost?
- +1. Můžete okomentovat více podrobností o “ Regrese Ridge je obecnější, protože tato technika může zvolit nesprávné předchozí „? Nechápu to ‚. I myšlenka RR = Gaussian (správný) před $ w $.
- @amoeba: Gaussianský prior je $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ ale $ \ lambda $ umět být nula, což má za následek nesprávný prior, tj. to má za následek MLE.
- @DeltaIV: jistě, když máme nejistotu ohledně parametru, můžeme to modelovat pomocí prior. Předpokladem známé přesnosti je snazší nalezení analytického řešení. Obvykle tato analytická řešení nejsou možná a musíme použít aproximace, jako je MCMC nebo nějaká variační technika.