Bayes-regressio: miten se tehdään verrattuna tavalliseen regressioon?

Sain joitain kysymyksiä Bayesin regressiosta:

Annettiin tavanomainen regressio muodossa $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Jos haluan muuttaa tämän Bayesin regressioksi, tarvitsenko ennakkojakoja sekä $ \ beta_0 $: lle että $ \ beta_1 $: lle (vai eikö se toimi tällä tavalla)?
Tavallisessa regressiossa yritetään minimoida jäännökset saadaksesi yksittäiset arvot $ \ beta_0 $ ja $ \ beta_1 $. Kuinka tämä tehdään Bayes-regressiossa?

Taistelen todella paljon täällä:

$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$

Todennäköisyys tulee nykyinen tietojoukko (joten se on regressioparametrini, mutta ei yksittäisenä arvona vaan todennäköisyysjakaumana, eikö?). Prior tulee edellisestä tutkimuksesta (sanotaan sanotaan). Joten sain tämän yhtälön:

$$ y = \ beta_1 x + \ varepsilon $$

kanssa $ \ beta_1 $ onko se todennäköisyyteni tai takaapäinni (vai onko tämä vain täysin väärin)?

En yksinkertaisesti voi ymmärtää, miten tavallinen regressio muuttuu Bayesiksi.

Vastaa

Yksinkertainen lineaarinen regressiomalli

$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$

voidaan kirjoittaa sen takana olevan todennäköisyysmallin mukaan

$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$

ts riippuvainen muuttuja $ Y $ seuraa normaalijakaumaa, joka on parametrisoitu keskiarvolla $ \ mu_i $, joka on $ X $: n lineaarinen funktio parametrisoituna $ \ alpha, \ beta $ ja keskihajonnalla $ \ sigma $. Jos arvioit tällaisen mallin tavallisimmilla pienimmillä neliöillä , sinun ei tarvitse huolehtia todennäköisyyslomakkeesta, koska etsit optimaalisia arvoja $ \ alpha, beta $ -parametrit minimoimalla sovitettujen arvojen neliövirheet ennustettuihin arvoihin. Toisaalta voit arvioida tällaisen mallin käyttämällä suurimman todennäköisyyden estimointia , jossa etsit optimaalisia parametrien arvoja maksimoimalla todennäköisyysfunktio

$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$

missä $ \ mathcal {N} $ on normaalijakauman tiheysfunktio, joka on arvioitu $ y_i $ -pisteellä ja joka parametrisoidaan $ \ alpha + \ beta x_i $ ja keskihajonta $ \ sigma $.

Bayesilaisessa lähestymistavassa sen sijaan, että maksimoisimme pelkästään todennäköisyysfunktion, oletamme, että parametreille on aiemmat jakaumat ja käytetään Bayesin teoreemaa

$$ \ text {posterior } \ propto \ text {likelihood} \ kertaa \ text {prior} $$

Likelihood-funktio on sama kuin yllä, mutta mitä muutoksia oletat ottavan joitain aiempia jakeluja arvioiduille parametreille $ \ alpha, \ beta, \ sigma $ ja sisällytä ne yhtälöön.

$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {todennäköisyys}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$

”Mitä jakaumia?” on erilainen kysymys, koska valintoja on rajattomasti. Parametreille $ \ alpha, \ beta $ voit esimerkiksi olettaa, että normaalijakaumat on parametroitu joillakin hyperparametreilla tai $ t $ -jakauma , jos haluat olettaa raskaammat hännät, tai tasainen jakauma, jos et halua tehdä paljon oletuksia, mutta haluat olettaa, että parametrit voivat olla a priori ”mikä tahansa annetulla alueella” jne. $ \ sigma $: lle sinun on oletettava, että jokin edellinen -jakauma on rajattu nollan suuremmaksi, koska keskihajonnan on oltava positiivinen. Tämä voi johtaa mallikokoonpanoon, jonka John K. Kruschke havainnollistaa alla.

(lähde: http://www.indiana.edu/~kruschke/BMLR/ )

Vaikka etsit suurimmalla todennäköisyydellä yhtä optimaalista arvoa kullekin parametrille, Bayesin lähestymistavassa Bayes-lauseen avulla saat parametrien posterior -jakauman. Lopullinen arvio riippuu tiedoistasi ja prioreistasi tulevista tiedoista, mutta mitä enemmän tietoja tiedoissasi on, sitä vähemmän vaikutusvaltainen ovat priorit .

Huomaa, että kun käytetään yhtenäisiä prioreja, ne muodostavat muodon $ f (\ theta) \ propto 1 $ normalisoivien vakioiden pudottamisen jälkeen. Tämä tekee Bayesin lauseesta verrannollisen pelkän todennäköisyysfunktion kanssa, joten takajakauma saavuttaa sen maksimin täsmälleen samassa pisteessä kuin suurin todennäköisyysarvio.Seuraavaksi arvio yhtenäisten priorien kohdalla on sama kuin käyttämällä tavallisia vähiten neliöitä, koska neliövirheiden minimointi vastaa normaalin todennäköisyyden maksimointia .

Jos haluat arvioida mallin Bayesin lähestymistavassa, voit käyttää joissakin tapauksissa konjugaattiprioreja , joten posterior jakelu on saatavilla suoraan (katso esimerkki täältä ). Suurimmassa osassa tapauksia posteriorinen jakelu ei kuitenkaan ole suoraan saatavilla, ja sinun on käytettävä Markov-ketju Monte Carlo -menetelmiä malli (tarkista tämä esimerkki Metropolis-Hastings-algoritmin käytöstä lineaarisen regressioparametrien arvioimiseksi). Lopuksi, jos olet kiinnostunut vain parametrien pistearvioista, voit käyttää enintään jälkiarviointia , ts.

$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ keskellä Y, X) $$

Tarkempaa kuvausta logistisesta regressiosta saat tarkistamalla Bayesin logit-malli – intuitiivinen selitys? ketju.

Lisätietoja saat tarkistamalla seuraavat kirjat:

Kruschke, J. (2014). Bayesin tietojen analysointi: opetusohjelma R: n, JAGS: n ja Stanin kanssa. Akateeminen lehdistö.

Gelman, A., Carlin, JB, Stern, HS ja Rubin, DB (2004). Bayesin tietojen analyysi. Chapman & Hall / CRC.

kommentit

+1 Ottaen huomioon kysymyksen sanomistavan korostan ehkä hieman ’ enemmän tämä filosofinen ero: Tavallisimmissa pienimmissä neliöissä ja suurimman todennäköisyyden estimoinnissa aloitamme kysymyksellä ” Mitkä ovat $ \ beta_i $: n parhaat arvot (ehkä myöhempää käyttöä varten )? ” , kun taas täysin Bayesin lähestymistavassa aloitamme kysymyksellä ” Mitä voimme sanoa tuntemattomista arvoista $ \ beta_i $? ” ja jatka sitten mahdollisesti a posteriori- tai posterior-keskiarvon käyttämistä, jos pistearvio tarvitaan.
+1. Vielä yksi asia, joka saattaa olla hyödyllistä huomauttaa Bayesian ja OLS-lähestymistapojen välisen suhteen selvittämiseksi, on se, että OLS voidaan ymmärtää taka-keskiarvona tasaisen priorin alla (ainakin sikäli kuin ymmärrän). Olisi hienoa, jos voisit tarkentaa sitä hieman vastauksessasi.
@amoeba it ’ sa hyvä asia, minä ’ Ajattelen sitä. Mutta toisaalta en halua ’ halua tehdä vastauksesta liian pitkää, joten yksityiskohdissa on järkevää mennä.
@amoeba FYI, minä lisäsi siihen lyhyen kommentin.

Vastaa

Annettu tietojoukko $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ missä $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, Bayesin lineaarinen regressio mallintaa ongelmaa seuraavasti:

Edellinen: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$

$ w $ on vektori $ (w_1, \ ldots, w_d) ^ T $, joten edellinen jakauma on monivaiheinen Gaussin; ja $ I_d $ on $ d \ kertaa d $ -identiteettimatriisi.

Todennäköisyys: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$

Oletetaan, että $ Y_i \ perp Y_j | w, i \ neq j $

Toistaiseksi käytämme tarkkuutta varianssin sijaan, $ a = 1 / \ sigma ^ 2 $ ja $ b = 1 / \ sigma_w ^ 2 $. Oletamme myös, että $ a, b $ tunnetaan.

Aikaisempi voidaan ilmoittaa muodossa $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$

Ja todennäköisyys $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Iso \} $$

missä $ y = (y_1, \ ldots, y_N) ^ T $ ja $ A $ on $ n \ kertaa d $ matriisi, jossa i -rivi on $ x_i ^ T $.

Sitten takana on $$ p (w | D) \ propto p (D | w) p (w) $$

Monien laskelmien jälkeen havaitsemme, että

$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$

missä ($ \ Lambda $ on tarkkuusmatriisi)

$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$

Huomaa, että $ \ mu $ on yhtä suuri kuin säännöllisen lineaarisen regression $ w_ {MAP} $, koska Gaussin keskiarvo on sama kuin tila.

Voimme myös tehdä jonkin algebran yli $ \ mu $ ja saada seuraavan yhtälön ($ \ Lambda = a A ^ TA + bI_d $):

$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$

ja vertaa malliin $ w_ {MLE} $:

$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$

Ylimääräinen lauseke $ \ mu $: ssa vastaa prioria. Tämä on samanlainen kuin Ridge-regressiolauseke, erityistapauksessa, kun $ \ lambda = \ frac {b} {a} $. Ridgen regressio on yleisempää, koska tekniikka voi valita sopimattomat priorit (Bayesin näkökulmasta).

Ennakoivaa posteriorista jakaumaa varten:

on mahdollista laskea, että

$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$

Viite: Lunn et al. BUGS-kirja

MCMC-työkalun, kuten JAGS / Stan, käyttämiseen tarkista Kruschke ”s Bayesin tietojen analysointi

Kommentit

Kiitos jpneto. Minusta tämä on hieno vastaus, mutta en ymmärrä sitä vielä matematiikan puutteen vuoksi Mutta luen sen varmasti uudelleen saatuani matematiikkataitoja
Tämä on erittäin mukavaa, mutta oletus tarkkuuden tiedosta on hieman harvinaista. Isn ’ t on paljon yleisempää olettaa, että varianssi on käänteinen gammajakauma, toisin sanoen gammajakauma tarkkuudelle?
+1. Voitteko kommentoida hieman enemmän ” Ridgen regressio on yleisempi, koska tekniikka voi valita sopimattomat priorit ”? En ymmärrä sitä. I ’ ajatus RR = Gaussin (oikea) priori $ w $: ssa.
@amoeba: Gaussin priori on $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ mutta $ \ lambda $ voi olla nolla, mikä johtaa virheelliseen prioriin, ts. se johtaa MLE: hen.
@DeltaIV: varma, kun meillä on epävarmuutta parametrista, voimme mallintaa sen priorilla. Tunnetun tarkkuuden oletuksena on helpottaa analyyttisen ratkaisun löytämistä. Yleensä nämä analyyttiset ratkaisut eivät ole mahdollisia, ja meidän on käytettävä likiarvoja, kuten MCMC tai jokin muunneltava tekniikka.

Vastaa

kommentit

Vastaa

Kommentit

Vastaa Peruuta vastaus