Bayes regresjon: hvordan gjøres det i forhold til standard regresjon?

Jeg fikk noen spørsmål om den bayesiske regresjonen:

  1. Gitt en standard regresjon som $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Hvis jeg vil endre dette til en Bayesisk regresjon, trenger jeg tidligere distribusjoner både for $ \ beta_0 $ og $ \ beta_1 $ (eller fungerer det ikke på denne måten)?

  2. I standard regresjon ville man prøve å minimere restene for å få enkeltverdier for $ \ beta_0 $ og $ \ beta_1 $. Hvordan gjøres dette i Bayes-regresjon?


Jeg sliter veldig mye her:

$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$

Sannsynligheten kommer fra nåværende datasett (så det er min regresjonsparameter, men ikke som en enkelt verdi, men som en sannsynlighetsfordeling, ikke sant?). Prior kommer fra en tidligere undersøkelse (la oss si). Så jeg fikk denne ligningen:

$$ y = \ beta_1 x + \ varepsilon $$

med $ \ beta_1 $ er min sannsynlighet eller bakre (eller er dette bare helt galt)?

Jeg kan rett og slett ikke forstå hvordan standard regresjon forvandles til en Bayes.

Svar

Enkel lineær regresjonsmodell

$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$

kan skrives når det gjelder sannsynlighetsmodellen bak den

$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$

dvs. avhengig variabel $ Y $ følger normalfordeling parametrisert med middel $ \ mu_i $, det vil si en lineær funksjon av $ X $ parametrisert av $ \ alpha, \ beta $, og ved standardavvik $ \ sigma $. Hvis du estimerer en slik modell ved hjelp av vanlige minste firkanter , trenger du ikke å bry deg om den sannsynlige formuleringen, fordi du søker etter optimale verdier på $ \ alpha, \ beta $ -parametere ved å minimere de kvadratiske feilene i tilpassede verdier til forutsagte verdier. På en annen side kan du estimere en slik modell ved hjelp av maksimal sannsynlighetsestimering , der du vil se etter optimale verdier av parametere ved å maksimere sannsynlighetsfunksjonen

$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$

hvor $ \ mathcal {N} $ er en tetthetsfunksjon av normalfordeling evaluert til $ y_i $ poeng, parametrisert ved hjelp av $ \ alpha + \ beta x_i $ og standardavvik $ \ sigma $.

I Bayesian-tilnærming i stedet for å maksimere sannsynlighetsfunksjonen alene, vil vi anta tidligere distribusjoner for parametrene og bruke Bayes-setning

$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$

Sannsynlighetsfunksjonen er den samme som ovenfor, men det som endres er at du antar noen tidligere distribusjoner for de estimerte parametrene $ \ alpha, \ beta, \ sigma $ og inkludere dem i ligningen

$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {sannsynlighet}} \ ; \ underligger {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$

«Hvilke distribusjoner?» er et annet spørsmål, siden det er ubegrenset antall valg. For $ \ alpha, \ beta $ parametere kan du for eksempel anta normale distribusjoner parametrisert av noen hyperparametere , eller $ t $ -distribusjon hvis du vil anta tyngre haler, eller jevn fordeling hvis du ikke vil gjøre mye antagelser, men du vil anta at parametrene kan være a priori «alt i det gitte området» osv. For $ \ sigma $ må du anta en del prior fordeling som er begrenset til å være større enn null, siden standardavvik må være positivt. Dette kan føre til modellformuleringen som illustrert nedenfor av John K. Kruschke.

Bayesisk lineær regresjonsmodellformulering

(kilde: http://www.indiana.edu/~kruschke/BMLR/ )

ens du med maksimal sannsynlighet lette etter en enkelt optimal verdi for hver av parametrene, oppnår du i Bayesiansk tilnærming ved å anvende Bayes-setningen posterior fordelingen av parametrene. Det endelige anslaget vil avhenge av informasjonen som kommer fra dataene dine og fra dine priors , men jo mer informasjon du finner i dataene dine, desto mindre innflytelsesrik er priors .

Legg merke til at når du bruker ensartede priors, tar de form $ f (\ theta) \ propto 1 $ etter at de normaliserende konstantene har falt. Dette gjør Bayes-setningen proporsjonal med sannsynlighetsfunksjonen alene, slik at den bakre fordelingen når det maksimale på nøyaktig samme punkt som maksimalt sannsynlighetsestimat.Det som følger, estimatet under uniform priors vil være det samme som ved bruk av vanlige minste kvadrater siden å minimere de kvadratiske feilene tilsvarer å maksimere normal sannsynlighet .

For å estimere en modell i Bayesian-tilnærming kan du i noen tilfeller bruke konjugerte priors , så posterior distribusjon er direkte tilgjengelig (se eksempel her ). I langt de fleste tilfeller vil posterior distribusjon imidlertid ikke være direkte tilgjengelig, og du må bruke Markov Chain Monte Carlo metoder for å estimere modell (sjekk dette eksemplet om bruk av Metropolis-Hastings-algoritmen for å estimere parametere for lineær regresjon). Til slutt, hvis du bare er interessert i punktestimater av parametere, kan du bruke maksimalt a posteriori estimat , dvs.

$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$

For mer detaljert beskrivelse av logistisk regresjon kan du sjekke Bayesian logit-modell – intuitiv forklaring? tråd.

For å lære mer kan du sjekke følgende bøker:

Kruschke, J. (2014). Gjør Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan. Academic Press.

Gelman, A., Carlin, JB, Stern, HS og Rubin, DB (2004). Bayesisk dataanalyse. Chapman & Hall / CRC.

Kommentarer

  • +1 Gitt måten spørsmålet er oppgitt på, vil jeg ‘ kanskje understreke litt mer denne filosofiske forskjellen: I vanlige minste firkanter og maksimal sannsynlighetsestimering begynner vi med spørsmålet » Hva er de beste verdiene for $ \ beta_i $ (kanskje for senere bruk )? » , mens vi i den fulle Bayesiske tilnærmingen begynner med spørsmålet » Hva kan vi si om de ukjente verdiene $ \ beta_i $? » og deretter fortsette å bruke maksimalt a posteriori eller posterior middel hvis et poengestimat er nødvendig.
  • +1. En ting til som kan være nyttig å påpeke for å avklare forholdet mellom Bayesian og OLS-tilnærminger, er at OLS kan forstås som posterior middel under en flat prior (i det minste så vidt jeg forstår). Ville være flott hvis du kunne utdype det litt i svaret ditt.
  • @amoeba det ‘ et godt poeng, jeg ‘ Jeg tenker på det. Men på en annen side vil jeg ikke ‘ ikke gjøre svaret åpenbart langt, så det er et poeng å gå i detaljer.
  • @amoeba FYI, I la til en kort kommentar til det.

Svar

Gitt et datasett $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ hvor $ x \ i \ mathbb {R} ^ d, y \ in \ mathbb {R} $, en Bayesian Lineær regresjon modellerer problemet på følgende måte:

Tidligere: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$

$ w $ er vektor $ (w_1, \ ldots, w_d) ^ T $, så den forrige distribusjonen er en multivariat gaussisk; og $ I_d $ er $ d \ ganger d $ identitetsmatrise.

Sannsynlighet: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$

Vi antar at $ Y_i \ perp Y_j | w, i \ neq j $

For nå bruker vi presisjonen i stedet for avviket, $ a = 1 / \ sigma ^ 2 $, og $ b = 1 / \ sigma_w ^ 2 $. Vi antar også at $ a, b $ er kjent.

Prior kan angis som $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$

Og sannsynligheten $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$

hvor $ y = (y_1, \ ldots, y_N) ^ T $ og $ A $ er en $ n \ ganger d $ matrise der i -te rad er $ x_i ^ T $.

Da er den bakre $$ p (w | D) \ propto p (D | w) p (w) $$

Etter mange beregninger oppdager vi at

$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$

hvor ($ \ Lambda $ er presisjonsmatrisen)

$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$

Legg merke til at $ \ mu $ er lik $ w_ {MAP} $ for den vanlige lineære regresjonen, dette er fordi for gausseren er gjennomsnittet lik modusen.

Vi kan også lage noen algebra over $ \ mu $ og få følgende likhet ($ \ Lambda = a A ^ TA + bI_d $):

$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$

og sammenlign med $ w_ {MLE} $:

$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$

Ekstrauttrykket i $ \ mu $ tilsvarer det foregående. Dette ligner på uttrykket for Ridge-regresjonen, for det spesielle tilfellet når $ \ lambda = \ frac {b} {a} $. Ryggregresjon er mer generell fordi teknikken kan velge uriktig prior (i Bayesiansk perspektiv).

For den prediktive bakre fordelingen:

$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$

det er mulig å beregne at

$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$

Referanse: Lunn et al. BUGS-boken

For å bruke et MCMC-verktøy som JAGS / Stan, sjekk Kruschke «s Gjør Bayesian Data Analysis

Kommentarer

  • Takk jpneto. Jeg føler at dette er et flott svar, men jeg forstår det ikke ennå på grunn av mangel på matematikk- kunnskap. Men jeg vil definitivt lese det igjen etter å ha fått noen matteferdigheter
  • Dette er veldig hyggelig, men antagelsen om at presisjonen er kjent er litt uvanlig. Er ikke ‘ t er det mye mer vanlig å anta en invers gammafordeling for variansen, dvs. en gammafordeling for presisjonen?
  • +1. Kan du kommentere litt mer på » Ryggregresjon er mer generelt fordi teknikken kan velge upassende priors «? Jeg får ikke ‘ det. Jeg tenkte RR = Gaussisk (riktig) prior på $ w $.
  • @amoeba: Den gaussiske prioren er $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ men $ \ lambda $ kan være null som resulterer i en upassende prior, dvs. det resulterer i MLE.
  • @ DeltaIV: sikker, når vi har usikkerhet om en parameter kan vi modellere det med en prior. Antagelsen om kjent presisjon er å gjøre det lettere å finne en analytisk løsning. Vanligvis er disse analytiske løsningene ikke mulige, og vi må bruke tilnærminger, som MCMC eller en eller annen variasjonsteknikk.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *