Jeg fik nogle spørgsmål om Bayesisk regression:
-
Givet en standard regression som $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Hvis jeg vil ændre dette til en Bayesisk regression, skal jeg have forudgående distributioner både for $ \ beta_0 $ og $ \ beta_1 $ (eller fungerer det ikke på denne måde)?
-
I standard regression ville man forsøge at minimere resterne for at få enkeltværdier for $ \ beta_0 $ og $ \ beta_1 $. Hvordan gøres dette i Bayes-regression?
Jeg kæmper virkelig meget her:
$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$
Sandsynligheden kommer fra nuværende datasæt (så det er min regressionsparameter, men ikke som en enkelt værdi, men som en sandsynlighedsfordeling, ikke?). Prior kommer fra en tidligere undersøgelse (lad os sige). Så jeg fik denne ligning:
$$ y = \ beta_1 x + \ varepsilon $$
med $ \ beta_1 $ er min sandsynlighed eller bageste (eller er dette bare helt forkert)?
Jeg kan simpelthen ikke forstå, hvordan standardregressionen forvandles til en Bayes.
Svar
Enkel lineær regressionsmodel
$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$
kan skrives med hensyn til sandsynlighedsmodel bag den
$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$
dvs. afhængig variabel $ Y $ følger normalfordeling parametreret med middelværdien $ \ mu_i $, det vil sige en lineær funktion på $ X $ parametreret med $ \ alpha, \ beta $ og ved standardafvigelse $ \ sigma $. Hvis du estimerer en sådan model ved hjælp af almindelige mindste kvadrater , behøver du ikke bekymre dig om den sandsynlige formulering, fordi du søger efter optimale værdier på $ \ alpha, \ beta $ parametre ved at minimere de kvadrerede fejl i tilpassede værdier til forudsagte værdier. På en anden side kan du estimere en sådan model ved hjælp af maksimal sandsynlighedsestimering , hvor du vil være på udkig efter optimale parameterværdier ved at maksimere sandsynlighedsfunktionen
$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$
hvor $ \ mathcal {N} $ er en densitetsfunktion af normalfordeling vurderet til $ y_i $ point, parametriseret ved hjælp af $ \ alpha + \ beta x_i $ og standardafvigelse $ \ sigma $.
I Bayesian-tilgang i stedet for at maksimere sandsynlighedsfunktionen alene, antager vi tidligere distributioner for parametrene og bruger Bayes-sætning
$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$
Sandsynlighedsfunktionen er den samme som ovenfor, men hvad der ændrer sig er, at du antager nogle tidligere distributioner for de anslåede parametre $ \ alpha, \ beta, \ sigma $ og inkludere dem i ligningen
$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {sandsynlighed}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$
“Hvilke distributioner?” er et andet spørgsmål, da der er ubegrænset antal valg. For $ \ alpha, \ beta $ -parametre kunne du for eksempel antage normale fordelinger parametreret af nogle hyperparametre eller $ t $ -fordeling , hvis du vil antage tungere haler eller ensartet fordeling, hvis du ikke vil antage meget, men du vil antage, at parametrene kan være a priori “noget i det givne interval” osv. For $ \ sigma $ skal du antage en del forud fordeling, der er afgrænset til at være større end nul, da standardafvigelsen skal være positiv. Dette kan føre til modelformuleringen som illustreret nedenfor af John K. Kruschke.
(kilde: http://www.indiana.edu/~kruschke/BMLR/ )
ens du med maksimal sandsynlighed ledte efter en enkelt optimal værdi for hver af parametrene, opnår du i Bayesiansk tilgang ved at anvende Bayes-sætning posterior fordelingen af parametrene. Det endelige skøn afhænger af de oplysninger, der kommer fra dine data og fra dine priors men jo mere information der er indeholdt i dine data, jo mindre indflydelsesrig er priors .
Bemærk, at når de bruger ensartede priors, tager de form $ f (\ theta) \ propto 1 $ efter at de normaliserende konstanter er droppet. Dette gør Bayes sætning proportional med sandsynlighedsfunktionen alene, så den bageste fordeling når det maksimale på nøjagtigt det samme punkt som maksimalt sandsynlighedsestimat.Hvad der følger, vil estimatet under ensartede prioriteter være det samme som ved at bruge almindelige mindste kvadrater, da minimering af de kvadrerede fejl svarer til at maksimere den normale sandsynlighed .
For at estimere en model i Bayesisk tilgang kan du i nogle tilfælde bruge konjugeret priors , så posterior distribution er direkte tilgængelig (se eksempel her ). I langt de fleste tilfælde er posterior distribution imidlertid ikke direkte tilgængelig, og du bliver nødt til at bruge Markov Chain Monte Carlo metoder til at estimere model (tjek dette eksempel for brug af Metropolis-Hastings algoritme til at estimere parametre for lineær regression). Endelig, hvis du kun er interesseret i punktestimater for parametre, kan du bruge maksimal a posteriori estimering , dvs.
$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$
For mere detaljeret beskrivelse af logistisk regression kan du kontrollere Bayesian logit model – intuitiv forklaring? tråd.
For at lære mere kan du tjekke følgende bøger:
Kruschke, J. (2014). At lave Bayesian-dataanalyse: En tutorial med R, JAGS og Stan. Academic Press.
Gelman, A., Carlin, JB, Stern, HS og Rubin, DB (2004). Bayesisk dataanalyse. Chapman & Hall / CRC.
Kommentarer
- +1 I betragtning af, hvordan spørgsmålet er angivet, vil jeg ‘ måske understrege lidt mere denne filosofiske forskel: I almindelige mindste firkanter og maksimal sandsynlighedsestimering starter vi med spørgsmålet ” Hvad er de bedste værdier for $ \ beta_i $ (måske til senere brug )? ” , mens vi i den fulde Bayesiske tilgang starter med spørgsmålet ” Hvad kan vi sige om de ukendte værdier $ \ beta_i $? ” og derefter fortsætte med at bruge det maksimale a posteriori eller posterior middel, hvis der er behov for et pointestimat.
- +1. En ting mere, der kan være nyttigt at påpege for at afklare forholdet mellem Bayesian og OLS-tilgange, er at OLS kan forstås som posterior middel under en flad prior (i det mindste så vidt jeg forstår). Det ville være godt, hvis du kunne uddybe det lidt i dit svar.
- @amoeba det ‘ et godt punkt, jeg ‘ Jeg tænker over det. Men på en anden side vil jeg ikke ‘ ikke gøre svaret åbenlyst langt, så der er et punkt i at gå i detaljer.
- @amoeba FYI, I tilføjede en kort kommentar til det.
Svar
Givet et datasæt $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ hvor $ x \ i \ mathbb {R} ^ d, y \ in \ mathbb {R} $, en Bayesian Lineær Regression modellerer problemet på følgende måde:
Forud: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$
$ w $ er vektor $ (w_1, \ ldots, w_d) ^ T $, så den tidligere distribution er en multivariat gaussisk; og $ I_d $ er $ d \ gange d $ identitetsmatrix.
Sandsynlighed: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$
Vi antager, at $ Y_i \ perp Y_j | w, i \ neq j $
For nu bruger vi præcisionen i stedet for variansen, $ a = 1 / \ sigma ^ 2 $ og $ b = 1 / \ sigma_w ^ 2 $. Vi antager også, at $ a, b $ er kendt.
Prior kan angives som $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$
Og sandsynligheden $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$
hvor $ y = (y_1, \ ldots, y_N) ^ T $ og $ A $ er en $ n \ gange d $ matrix, hvor i -th række er $ x_i ^ T $.
Derefter er den bageste $$ p (w | D) \ propto p (D | w) p (w) $$
Efter mange beregninger opdager vi, at
$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$
hvor ($ \ Lambda $ er præcisionsmatricen)
$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$
Bemærk, at $ \ mu $ er lig med $ w_ {MAP} $ for den regelmæssige lineære regression, dette skyldes for Gaussian er middelværdien lig med tilstanden.
Vi kan også lave algebra over $ \ mu $ og få følgende ligestilling ($ \ Lambda = a A ^ TA + bI_d $):
$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$
og sammenlign med $ w_ {MLE} $:
$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$
Det ekstra udtryk i $ \ mu $ svarer til det foregående. Dette svarer til udtrykket for Ridge-regression for det specielle tilfælde, når $ \ lambda = \ frac {b} {a} $. Ridge regression er mere generel, fordi teknikken kan vælge forkert prior (i Bayesiansk perspektiv).
Til den forudsigende posteriore fordeling:
$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$
det er muligt at beregne det
$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$
Reference: Lunn et al. BUGS-bogen
Til brug af et MCMC-værktøj som JAGS / Stan skal du kontrollere Kruschke “s Udføre Bayesian-dataanalyse
Kommentarer
- Tak jpneto. Jeg føler, at dette er et godt svar, men jeg forstår det endnu ikke på grund af manglende matematik- viden. Men jeg vil helt sikkert læse det igen efter at have fået nogle matematiske færdigheder
- Dette er meget rart, men antagelsen om, at præcisionen er kendt, er lidt ualmindelig. Er ikke ‘ t er det meget mere almindeligt at antage en invers gammafordeling for variansen, dvs. en gammafordeling for præcisionen?
- +1. Kan du kommentere lidt mere på ” Rygregression er mere generel, fordi teknikken kan vælge forkert prior “? Jeg får det ikke ‘. tænkte RR = Gaussisk (korrekt) forud for $ w $.
- @amoeba: Den gaussiske prior er $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ men $ \ lambda $ kan være nul, hvilket resulterer i en forkert prior, dvs. det resulterer i MLE.
- @ DeltaIV: sikker, når vi har usikkerhed om en parameter, kan vi modellere det med en prior. Antagelsen om kendt præcision er at gøre det lettere at finde en analytisk løsning. Normalt er disse analytiske løsninger ikke mulige, og vi skal bruge tilnærmelser som MCMC eller en eller anden variationsteknik.