Bayes-regression: hur görs det jämfört med standardregression?

Jag fick några frågor om den Bayesiska regressionen:

  1. Givet en standardregression som $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Om jag vill ändra detta till en Bayesisk regression, behöver jag tidigare distributioner både för $ \ beta_0 $ och $ \ beta_1 $ (eller fungerar det inte på det här sättet)?

  2. I standard regression skulle man försöka minimera restvärdena för att få enstaka värden för $ \ beta_0 $ och $ \ beta_1 $. Hur görs detta i Bayes-regression?


Jag kämpar verkligen mycket här:

$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$

Sannolikheten kommer från nuvarande dataset (så det är min regressionsparameter men inte som ett enda värde utan som en sannolikhetsfördelning, eller hur?). Prior kommer från en tidigare forskning (låt oss säga). Så jag fick den här ekvationen:

$$ y = \ beta_1 x + \ varepsilon $$

med $ \ beta_1 $ är min sannolikhet eller bakre (eller är det här helt fel)?

Jag kan helt enkelt inte förstå hur standardregressionen förvandlas till en Bayes.

Svar

Enkel linjär regressionsmodell

$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$

kan skrivas i termer av probabilistisk modell bakom den

$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$

dvs beroende variabel $ Y $ följer normalfördelningen parametriserad av medelvärdet $ \ mu_i $, det vill säga en linjär funktion av $ X $ parametriserad av $ \ alpha, \ beta $ och med standardavvikelsen $ \ sigma $. Om du uppskattar en sådan modell med vanliga minsta kvadrater behöver du inte bry dig om den probabilistiska formuleringen, för du söker efter optimala värden på $ \ alpha, \ beta $ -parametrar genom att minimera de kvadrerade felen för anpassade värden till förutspådda värden. Å andra sidan kan du uppskatta en sådan modell med maximal sannolikhetsuppskattning , där du skulle leta efter optimala parametervärden genom att maximera sannolikhetsfunktionen

$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$

där $ \ mathcal {N} $ är en densitetsfunktion av normalfördelning utvärderad till $ y_i $ poäng, parametriserad med hjälp av $ \ alpha + \ beta x_i $ och standardavvikelse $ \ sigma $.

I Bayesian-metoden istället för att maximera sannolikhetsfunktionen ensam skulle vi anta tidigare distributioner för parametrarna och använda Bayes-satsen

$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$

Sannolikhetsfunktionen är densamma som ovan, men det som ändras är att du antar några tidigare distributioner för de uppskattade parametrarna $ \ alpha, \ beta, \ sigma $ och inkludera dem i ekvationen

$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {sannolikhet}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$

”Vilka fördelningar?” är en annan fråga, eftersom det finns obegränsat antal val. För $ \ alpha, \ beta $ -parametrar kan du till exempel anta normala fördelningar parametriserade av några hyperparametrar , eller $ t $ -distribution om du vill anta tyngre svansar, eller enhetlig fördelning om du inte vill göra mycket antaganden, men du vill anta att parametrarna kan vara a priori ”vad som helst inom det givna intervallet”, etc. För $ \ sigma $ måste du anta en del tidigare distribution som är begränsad till att vara större än noll, eftersom standardavvikelsen måste vara positiv. Detta kan leda till modellformuleringen som illustreras nedan av John K. Kruschke.

Bayesiansk linjär regressionsmodellformulering

(källa: http://www.indiana.edu/~kruschke/BMLR/ )

Medan du med största sannolikhet letade efter ett enda optimalt värde för var och en av parametrarna, i Bayesian-metoden genom att tillämpa Bayes-satsen får du posterior fördelningen av parametrarna. Den slutliga uppskattningen beror på informationen som kommer från dina data och från dina priors men ju mer information som finns i dina data, desto mindre inflytelserik är priors .

Observera att när de använder enhetliga priors, tar de formen $ f (\ theta) \ propto 1 $ efter att de normaliserande konstanterna har tappats. Detta gör Bayes-satsen proportionell mot enbart sannolikhetsfunktionen, så den bakre fördelningen når det maximala vid exakt samma punkt som maximal sannolikhetsuppskattning.Vad som följer kommer uppskattningen under enhetliga prioriteter att vara densamma som att använda vanliga minsta kvadrater eftersom minimering av kvadratfelen motsvarar maximering av normal sannolikhet .

För att uppskatta en modell i Bayesian-tillvägagångssätt kan du i vissa fall använda konjugerade priors , så posterior distribution är direkt tillgänglig (se exempel här ). I de allra flesta fall är posterior distribution inte tillgänglig direkt och du måste använda Markov Chain Monte Carlo metoder för att uppskatta modell (kontrollera detta exempel om hur du använder Metropolis-Hastings-algoritmen för att uppskatta parametrar för linjär regression). Slutligen, om du bara är intresserad av punktuppskattningar av parametrar, kan du använda maximal uppskattning efteråt , dvs

$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$

För mer detaljerad beskrivning av logistisk regression kan du kontrollera Bayesian logit-modell – intuitiv förklaring? tråd.

För att lära dig mer kan du kontrollera följande böcker:

Kruschke, J. (2014). Gör Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan. Academic Press.

Gelman, A., Carlin, JB, Stern, HS och Rubin, DB (2004). Bayesisk dataanalys. Chapman & Hall / CRC.

Kommentarer

  • +1 Med tanke på hur frågan anges, skulle jag ’ kanske betona lite mer denna filosofiska skillnad: I vanliga minsta kvadrater och maximal sannolikhetsuppskattning börjar vi med frågan ” Vilka är de bästa värdena för $ \ beta_i $ (kanske för senare användning )? ” , medan vi i den fullständiga Bayesiska metoden börjar med frågan ” Vad kan vi säga om de okända värdena $ \ beta_i $? ” och sedan kanske fortsätta att använda det maximala a posteriori eller posterior medelvärdet om en poänguppskattning behövs.
  • +1. En sak till som kan vara användbart att påpeka för att klargöra förhållandet mellan Bayesian och OLS-tillvägagångssätt är att OLS kan förstås som posterior medelvärde under en platt tidigare (åtminstone så vitt jag förstår). Skulle vara jättebra om du kunde utveckla det lite i ditt svar.
  • @amoeba det ’ en bra punkt, jag ’ Jag tänker på det. Men å andra sidan vill jag inte ’ att göra svaret uppenbart långt, så det är en mening att gå till detaljer.
  • @amoeba FYI, I lade till en kort kommentar till det.

Svar

Givet en datamängd $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ där $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, en Bayesian Linear Regression modellerar problemet på följande sätt:

Tidigare: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$

$ w $ är vektor $ (w_1, \ ldots, w_d) ^ T $, så den tidigare distributionen är en flervariat Gauss; och $ I_d $ är $ d \ gånger d $ identitetsmatris.

Sannolikhet: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$

Vi antar att $ Y_i \ perp Y_j | w, i \ neq j $

För tillfället kommer vi att använda precisionen istället för variansen, $ a = 1 / \ sigma ^ 2 $ och $ b = 1 / \ sigma_w ^ 2 $. Vi antar också att $ a, b $ är kända.

Det föregående kan anges som $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$

Och sannolikheten $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$

där $ y = (y_1, \ ldots, y_N) ^ T $ och $ A $ är en $ n \ gånger d $ -matris där i raden är $ x_i ^ T $.

Sedan är den bakre $$ $$ p (w | D) \ propto p (D | w) p (w) $$

Efter många beräkningar upptäcker vi att

$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$

där ($ \ Lambda $ är precisionsmatrisen)

$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$

Observera att $ \ mu $ är lika med $ w_ {MAP} $ för den vanliga linjära regressionen, detta beror på för Gaussian är medelvärdet lika med läget.

Vi kan också göra lite algebra över $ \ mu $ och få följande jämställdhet ($ \ Lambda = a A ^ TA + bI_d $):

$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$

och jämför med $ w_ {MLE} $:

$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$

Extrauttrycket i $ \ mu $ motsvarar föregående. Detta liknar uttrycket för Ridge-regressionen, för specialfallet när $ \ lambda = \ frac {b} {a} $. Ridge-regression är mer allmän eftersom tekniken kan välja felaktiga prioriteringar (i Bayesiansk perspektiv).

För den prediktiva bakre fördelningen:

$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$

det är möjligt att beräkna att

$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$

Referens: Lunn et al. BUGS-boken

För att använda ett MCMC-verktyg som JAGS / Stan kontrollera Kruschke ”s Gör Bayesian Data Analysis

Kommentarer

  • Tack jpneto. Jag tycker att det här är ett bra svar, men jag förstår det ännu inte på grund av brist på matematik- kunskap. Men jag kommer definitivt att läsa den igen efter att ha fått matematiska färdigheter
  • Detta är väldigt trevligt, men antagandet att precisionen är känd är lite ovanlig. Är inte ’ t är det mycket vanligare att anta en invers gammafördelning för variansen, dvs. en gammafördelning för precisionen?
  • +1. Kan du kommentera lite mer på ” Åsregression är mer allmän eftersom tekniken kan välja felaktiga prioriteter ”? Jag förstår inte ’. tänkte RR = Gaussisk (rätt) tidigare på $ w $.
  • @amoeba: Den gaussiska prioren är $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ men $ \ lambda $ burk vara noll vilket resulterar i en felaktig prior, dvs. det resulterar i MLE.
  • @ DeltaIV: säker, när vi har osäkerhet om en parameter kan vi modellera den med en prior. Antagandet av känd precision är att göra det lättare att hitta en analytisk lösning. Vanligtvis är dessa analytiska lösningar inte möjliga och vi måste använda approximationer, som MCMC eller någon variationsteknik.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *