Ho alcune domande sulla regressione bayesiana:
-
Data una regressione standard come $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Se voglio cambiarlo in una regressione bayesiana, ho bisogno di distribuzioni precedenti sia per $ \ beta_0 $ che per $ \ beta_1 $ (o non funziona in questo modo)?
-
Nella regressione standard si proverebbe a minimizzare i residui per ottenere valori singoli per $ \ beta_0 $ e $ \ beta_1 $. Come si fa nella regressione di Bayes?
Faccio davvero molto qui:
$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$
La verosimiglianza deriva dal set di dati corrente (quindi è il mio parametro di regressione ma non come valore singolo ma come distribuzione di probabilità, giusto?). Prior proviene da una ricerca precedente (diciamo). Quindi ho ottenuto questa equazione:
$$ y = \ beta_1 x + \ varepsilon $$
con $ \ beta_1 $ è probabile o posteriore (o è completamente sbagliato)?
Non riesco semplicemente a capire come la regressione standard si trasformi in una di Bayes.
Risposta
Modello di regressione lineare semplice
$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$
può essere scritto in termini di modello probabilistico alla base
$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$
ie la variabile dipendente $ Y $ segue la distribuzione normale parametrizzata dalla media $ \ mu_i $, che è una funzione lineare di $ X $ parametrizzata da $ \ alpha, \ beta $ e dalla deviazione standard $ \ sigma $. Se stimi tale modello utilizzando i minimi quadrati ordinari , non devi preoccuparti della formulazione probabilistica, perché stai cercando valori ottimali di $ \ alpha, \ parametri beta $ minimizzando gli errori al quadrato dei valori adattati ai valori previsti. Daltro canto, potresti stimare tale modello utilizzando la stima di massima verosimiglianza , dove cercheresti valori ottimali dei parametri massimizzando la funzione di verosimiglianza
$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$
dove $ \ mathcal {N} $ è una funzione di densità di distribuzione normale valutata in $ y_i $ punti, parametrizzata mediante $ \ alpha + \ beta x_i $ e deviazione standard $ \ sigma $.
Nellapproccio bayesiano invece di massimizzare la sola funzione di verosimiglianza, assumeremo distribuzioni precedenti per i parametri e useremmo il teorema di Bayes
$$ \ text {posterior } \ propto \ text {verosimiglianza} \ times \ text {prior} $$
La funzione verosimiglianza è la stessa di sopra, ma ciò che cambia è che assumi alcune distribuzioni precedenti per i parametri stimati $ \ alpha, \ beta, \ sigma $ e includerli nellequazione
$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {verosimiglianza}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$
“Quali distribuzioni?” è una domanda diversa, poiché esiste un numero illimitato di scelte. Per i parametri $ \ alpha, \ beta $ potresti, ad esempio, assumere distribuzioni normali parametrizzate da alcuni iperparametri o $ t $ -distribution se vuoi assumere code più pesanti, o una distribuzione uniforme se non vuoi fare molte ipotesi, ma vuoi assumere che i parametri possano essere a priori “qualsiasi cosa nellintervallo dato”, ecc. Per $ \ sigma $ devi assumere una distribuzione precedente limitata a essere maggiore di zero, poiché la deviazione standard deve essere positiva. Questo può portare alla formulazione del modello come illustrato di seguito da John K. Kruschke.
(fonte: http://www.indiana.edu/~kruschke/BMLR/ )
Mentre con la massima probabilità cercavi un singolo valore ottimale per ciascuno dei parametri, nellapproccio bayesiano applicando il teorema di Bayes si ottiene la distribuzione posteriore dei parametri. La stima finale dipenderà dalle informazioni che provengono dai tuoi dati e dai tuoi priori , ma più informazioni sono contenute nei tuoi dati, meno influenti sono a priori .
Si noti che quando si usano a priori uniformi, assumono la forma $ f (\ theta) \ propto 1 $ dopo aver eliminato le costanti di normalizzazione. Questo rende il teorema di Bayes proporzionale alla sola funzione di verosimiglianza, quindi la distribuzione a posteriori raggiungerà il suo massimo esattamente nello stesso punto della stima di massima verosimiglianza.Di seguito, la stima a priori uniformi sarà la stessa utilizzata per i minimi quadrati ordinari poiché minimizzare gli errori al quadrato corrisponde a massimizzare la probabilità normale .
Per stimare un modello con un approccio bayesiano in alcuni casi puoi utilizzare coniugato a priori , quindi il posteriore è direttamente disponibile (vedi esempio qui ). Tuttavia nella stragrande maggioranza dei casi la distribuzione posteriore non sarà direttamente disponibile e dovrai usare i metodi Markov Chain Monte Carlo per stimare il modello (controlla questo esempio di utilizzo dellalgoritmo di Metropolis-Hastings per stimare i parametri di regressione lineare). Infine, se sei interessato solo alle stime puntuali dei parametri, potresti utilizzare stima a posteriori massima , ovvero
$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$
Per una descrizione più dettagliata della regressione logistica puoi controllare il Modello logit bayesiano – spiegazione intuitiva? thread.
Per saperne di più puoi controllare i seguenti libri:
Kruschke, J. (2014). Analisi dei dati bayesiani: un tutorial con R, JAGS e Stan. Academic Press.
Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2004). Analisi dei dati bayesiana. Chapman & Hall / CRC.
Commenti
- +1 Dato il modo in cui viene formulata la domanda, ‘ potrei forse enfatizzare un po più questa differenza filosofica: nella stima dei minimi quadrati e della massima verosimiglianza ordinaria, iniziamo con la domanda ” Quali sono i valori migliori per $ \ beta_i $ (forse per un uso successivo )? ” , mentre nellapproccio bayesiano completo, iniziamo con la domanda ” Cosa possiamo dire sui valori sconosciuti $ \ beta_i $? ” e quindi, se è necessaria una stima puntuale, procedere utilizzando la media a posteriori o a posteriori massima.
- +1. Unaltra cosa che potrebbe essere utile sottolineare per chiarire la relazione tra gli approcci bayesiani e OLS è che OLS può essere inteso come media a posteriori sotto un precedente piatto (almeno per quanto ho capito). Sarebbe bello se potessi approfondire un po questo aspetto nella tua risposta.
- @amoeba è ‘ un buon punto, io ‘ ci penserò. Ma daltro canto, non ‘ voglio che la risposta sia apertamente lunga, quindi è opportuno andare ai dettagli.
- @amoeba Cordiali saluti, io ha aggiunto un breve commento al riguardo.
Risposta
Dato un set di dati $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ dove $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, una regressione lineare bayesiana modella il problema nel modo seguente:
Precedente: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$
$ w $ è il vettore $ (w_1, \ ldots, w_d) ^ T $, quindi la distribuzione precedente è una gaussiana multivariata; e $ I_d $ è la $ d \ times d $ matrice identità.
Probabilità: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$
Assumiamo che $ Y_i \ perp Y_j | w, i \ neq j $
Per ora useremo la precisione invece della varianza, $ a = 1 / \ sigma ^ 2 $ e $ b = 1 / \ sigma_w ^ 2 $. Assumeremo anche che $ a, b $ siano noti.
Il precedente può essere dichiarato come $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$
E la probabilità $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$
dove $ y = (y_1, \ ldots, y_N) ^ T $ e $ A $ è una $ n \ times d $ matrice dove la i -esima riga è $ x_i ^ T $.
Allora la parte posteriore è $$ p (w | D) \ propto p (D | w) p (w) $$
Dopo molti calcoli scopriamo che
$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$
dove ($ \ Lambda $ è la matrice di precisione)
$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$
Notare che $ \ mu $ è uguale a $ w_ {MAP} $ della regressione lineare regolare, questo perché per il gaussiano, la media è uguale alla modalità.
Inoltre, possiamo creare unalgebra su $ \ mu $ e ottenere la seguente uguaglianza ($ \ Lambda = a A ^ TA + bI_d $):
$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$
e confronta con $ w_ {MLE} $:
$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$
Lespressione aggiuntiva in $ \ mu $ corrisponde alla precedente. È simile allespressione per la regressione di Ridge, per il caso speciale in cui $ \ lambda = \ frac {b} {a} $. La regressione della cresta è più generale perché la tecnica può scegliere a priori impropri (nella prospettiva bayesiana).
Per la distribuzione predittiva a posteriori:
$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$
è possibile calcolarlo
$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$
Riferimento: Lunn et al. The BUGS Book
Per utilizzare uno strumento MCMC come JAGS / Stan controlla Kruschke “s Facendo analisi dei dati bayesiani
Commenti
- Grazie jpneto. Sento che questa è unottima risposta, ma ancora non la capisco a causa di una mancanza di matematica- conoscenza. Ma lo leggerò sicuramente di nuovo dopo aver acquisito alcune abilità matematiche
- Questo è molto carino, ma lipotesi che la precisione sia nota è un po rara. Isn ‘ È molto più comune assumere una distribuzione Gamma inversa per la varianza, cioè una distribuzione Gamma per la precisione?
- +1. Puoi commentare un po di più su ” La regressione di Ridge è più generale perché la tecnica può scegliere a priori impropri “? Non ‘ capisco. pensiero RR = Gaussian (corretto) a priori su $ w $.
- @amoeba: Il gaussiano a priori è $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ ma $ \ lambda $ può essere zero che risulta su un precedente improprio, cioè, risulta in MLE.
- @DeltaIV: certo, quando abbiamo incertezza su un parametro possiamo modellarlo con un precedente. Il presupposto di una precisione nota è quello di rendere più facile trovare una soluzione analitica. Di solito, queste soluzioni analitiche non sono possibili e dobbiamo usare approssimazioni, come MCMC o qualche tecnica variazionale.