Bayes-regressie: hoe wordt het gedaan in vergelijking met standaardregressie?

Ik heb wat vragen over de Bayesiaanse regressie:

  1. Gegeven een standaard regressie als $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Als ik dit wil veranderen in een Bayesiaanse regressie, heb ik dan eerdere distributies nodig voor zowel $ \ beta_0 $ als $ \ beta_1 $ (of werkt het niet op deze manier)?

  2. In standaard regressie zou men proberen de residuen te minimaliseren om enkele waarden te krijgen voor $ \ beta_0 $ en $ \ beta_1 $. Hoe wordt dit gedaan in Bayes-regressie?


Ik heb hier echt veel moeite:

$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$

Waarschijnlijkheid komt voort uit de huidige dataset (dus het is mijn regressieparameter, maar niet als een enkele waarde maar als een waarschijnlijkheidsverdeling, toch?). Prior komt uit een eerder onderzoek (laten we zeggen). Dus ik heb deze vergelijking:

$$ y = \ beta_1 x + \ varepsilon $$

met $ \ beta_1 $ is mijn waarschijnlijkheid of posterieur (of is dit gewoon helemaal verkeerd)?

Ik kan gewoon “niet begrijpen hoe de standaardregressie verandert in een Bayes-regressie.

Antwoord

Eenvoudig lineair regressiemodel

$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$

kan worden geschreven in termen van probabilistisch model erachter

$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$

dwz afhankelijke variabele $ Y $ volgt de normale verdeling geparametriseerd door gemiddelde $ \ mu_i $, dat wil zeggen een lineaire functie van $ X $ geparametriseerd door $ \ alpha, \ beta $, en door standaarddeviatie $ \ sigma $. Als u een dergelijk model schat met behulp van gewone kleinste kwadraten , hoeft u zich geen zorgen te maken over de probabilistische formulering, omdat u zoekt naar optimale waarden van $ \ alpha, \ beta $ parameters door de kwadratische fouten van aangepaste waarden te minimaliseren tot voorspelde waarden. Aan de andere kant zou u een dergelijk model kunnen schatten met behulp van schatting van de maximale waarschijnlijkheid , waarbij u zou zoeken naar optimale waarden van parameters door de waarschijnlijkheidsfunctie te maximaliseren.

$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$

waarbij $ \ mathcal {N} $ een dichtheidsfunctie is van normale verdeling geëvalueerd op $ y_i $ punten, geparametriseerd door middel van $ \ alpha + \ beta x_i $ en standaarddeviatie $ \ sigma $.

In de Bayesiaanse benadering in plaats van alleen de waarschijnlijkheidsfunctie te maximaliseren, zouden we eerdere distributies voor de parameters aannemen en de Bayes-stelling gebruiken

$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$

De waarschijnlijkheidsfunctie is hetzelfde als hierboven, maar wat verandert is dat je uitgaat van enkele eerdere distributies voor de geschatte parameters $ \ alpha, \ beta, \ sigma $ en neem ze op in de vergelijking

$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {likelihood}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$

“Welke distributies?” is een andere vraag, aangezien er een onbeperkt aantal keuzes is. Voor $ \ alpha, \ beta $ -parameters kunt u bijvoorbeeld uitgaan van normale distributies die zijn geparametriseerd door een aantal hyperparameters , of $ t $ -distribution als je zwaardere staarten wilt aannemen, of uniforme distributie als je niet veel aannames wilt doen, maar je wilt aannemen dat de parameters a priori kunnen zijn “alles in het gegeven bereik”, enz. Voor $ \ sigma $ moet u uitgaan van een eerdere distributie die begrensd is om groter dan nul te zijn, aangezien de standaarddeviatie positief moet zijn. Dit kan leiden tot de modelformulering zoals hieronder geïllustreerd door John K. Kruschke.

Bayesiaanse lineaire regressiemodelformulering

(bron: http://www.indiana.edu/~kruschke/BMLR/ )

Terwijl u naar alle waarschijnlijkheid op zoek was naar een enkele optimale waarde voor elk van de parameters, verkrijgt u in de Bayesiaanse benadering door het theorema van Bayes toe te passen de posterieure verdeling van de parameters. De uiteindelijke schatting hangt af van de informatie die afkomstig is van uw gegevens en van uw priors , maar hoe meer informatie uw gegevens bevat, hoe minder invloed zijn priors .

Merk op dat wanneer uniforme priors worden gebruikt, ze de vorm $ f (\ theta) \ propto 1 $ aannemen na het laten vallen van de normaliserende constanten. Dit maakt de stelling van Bayes evenredig met alleen de waarschijnlijkheidsfunctie, dus de posterieure distributie zal zijn maximum bereiken op precies hetzelfde punt als de schatting van de maximale waarschijnlijkheid.Wat volgt, de schatting onder uniforme priors zal hetzelfde zijn als bij het gebruik van gewone kleinste kwadraten, aangezien het minimaliseren van de gekwadrateerde fouten overeenkomt met het maximaliseren van de normale waarschijnlijkheid .

Om een model in de Bayesiaanse benadering te schatten, kunt u in sommige gevallen geconjugeerde priors gebruiken, dus de posterieure distributie is direct beschikbaar (zie voorbeeld hier ). In de meeste gevallen is posterieure distributie echter niet direct beschikbaar en moet u Markov Chain Monte Carlo -methoden gebruiken om de model (controleer dit voorbeeld van het gebruik van het Metropolis-Hastings-algoritme om parameters van lineaire regressie te schatten). Ten slotte, als u alleen geïnteresseerd bent in puntschattingen van parameters, kunt u maximale schatting a posteriori gebruiken , dwz

$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$

Voor een meer gedetailleerde beschrijving van logistieke regressie kunt u de Bayesiaanse logit-model – intuïtieve uitleg? thread.

Voor meer informatie kunt u de volgende boeken raadplegen:

Kruschke, J. (2014). Bayesiaanse gegevensanalyse uitvoeren: een zelfstudie met R, JAGS en Stan. Academic Press.

Gelman, A., Carlin, JB, Stern, HS en Rubin, DB (2004). Bayesiaanse gegevensanalyse. Chapman & Hall / CRC.

Reacties

  • +1 Gezien de manier waarop de vraag wordt gesteld, ‘ d misschien een beetje benadrukken meer dit filosofische verschil: bij een gewone schatting van de kleinste kwadraten en de maximale waarschijnlijkheid beginnen we met de vraag ” Wat zijn de beste waarden voor $ \ beta_i $ (misschien voor later gebruik )? ” , terwijl we in de volledige Bayesiaanse benadering beginnen met de vraag ” Wat kunnen we zeggen over de onbekende waarden $ \ beta_i $? ” en ga dan misschien verder met het gebruik van het maximum a posteriori of posterieur gemiddelde als een puntschatting nodig is.
  • +1. Nog een ding dat nuttig zou kunnen zijn om de relatie tussen Bayesiaanse en OLS-benaderingen te verduidelijken, is dat OLS kan worden begrepen als een posterieur gemiddelde onder een vlakke prior (althans voor zover ik begrijp). Het zou geweldig zijn als je dat in je antwoord een beetje zou kunnen toelichten.
  • @amoeba it ‘ een goed punt, ik ‘ Ik zal erover nadenken. Maar aan de andere kant wil ik ‘ het antwoord niet al te lang maken, dus het heeft zin om naar de details te gaan.
  • @amoeba Ter info, ik heeft daar een korte opmerking over toegevoegd.

Antwoord

Gegeven een dataset $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ waar $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, een Bayesiaanse lineaire regressie modelleert het probleem op de volgende manier:

Prior: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$

$ w $ is vector $ (w_1, \ ldots, w_d) ^ T $, dus de vorige verdeling is een multivariate Gaussiaanse; en $ I_d $ is de $ d \ times d $ identiteitsmatrix.

Waarschijnlijkheid: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$

We nemen aan dat $ Y_i \ perp Y_j | w, i \ neq j $

Voorlopig gebruiken we de precisie in plaats van de variantie, $ a = 1 / \ sigma ^ 2 $, en $ b = 1 / \ sigma_w ^ 2 $. We gaan er ook van uit dat $ a, b $ bekend zijn.

De prior kan worden vermeld als $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$

En de waarschijnlijkheid $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$

waarbij $ y = (y_1, \ ldots, y_N) ^ T $ en $ A $ een $ n \ maal d $ matrix is waar de i -de rij is $ x_i ^ T $.

Dan is de posterior $$ p (w | D) \ propto p (D | w) p (w) $$

Na vele berekeningen ontdekken we dat

$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$

waarbij ($ \ Lambda $ de precisiematrix is)

$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$

Merk op dat $ \ mu $ gelijk is aan $ w_ {MAP} $ van de reguliere lineaire regressie, dit komt omdat voor de Gauss is het gemiddelde gelijk aan de modus.

We kunnen ook wat algebra maken over $ \ mu $ en de volgende gelijkheid krijgen ($ \ Lambda = a A ^ TA + bI_d $):

$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$

en vergelijk met $ w_ {MLE} $:

$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$

De extra uitdrukking in $ \ mu $ komt overeen met de voorgaande. Dit is vergelijkbaar met de uitdrukking voor de Ridge-regressie, voor het speciale geval wanneer $ \ lambda = \ frac {b} {a} $. Ridge-regressie is algemener omdat de techniek onjuiste priors kan kiezen (in het Bayesiaanse perspectief).

Voor de voorspellende posterieure distributie:

$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$

het is mogelijk om dat te berekenen

$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$

Referentie: Lunn et al. The BUGS Book

Voor het gebruik van een MCMC-tool zoals JAGS / Stan, controleer Kruschke “s Bayesiaanse gegevensanalyse uitvoeren

Reacties

  • Dankjewel jpneto. ik vind dit een goed antwoord, maar ik begrijp het nog niet vanwege een gebrek aan wiskunde- maar ik zal het zeker nog een keer lezen nadat ik wat wiskundige vaardigheden heb opgedaan
  • Dit is erg leuk, maar de aanname dat de precisie bekend is, is een beetje ongebruikelijk. Isn ‘ Is het veel gebruikelijker om een omgekeerde gammadistributie voor de variantie aan te nemen, dwz een gammadistributie voor de precisie?
  • +1. Kun je wat meer commentaar geven op ” Ridge-regressie is algemener omdat de techniek onjuiste priors kan kiezen “? Ik ‘ snap het niet. dacht RR = Gaussiaanse (juiste) prior op $ w $.
  • @amoeba: De Gaussiaanse prior is $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ maar $ \ lambda $ kan nul zijn, wat resulteert in een onjuiste prior, dwz het resulteert in de MLE.
  • @DeltaIV: zeker, als we onzekerheid hebben over een parameter, kunnen we dat modelleren met een prior. De aanname van bekende precisie is om het gemakkelijker te maken om een analytische oplossing te vinden. Meestal zijn die analytische oplossingen niet mogelijk en moeten we benaderingen gebruiken, zoals MCMC of een variatie-techniek.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *