Lazo bayesiano vs lazo ordinario (Italiano)

Sono disponibili diversi software di implementazione per lasso . So molto discusso sullapproccio bayesiano vs lapproccio frequentista in diversi forum. La mia domanda è molto specifica per il lazo – Quali sono le differenze o i vantaggi del lazo baysiano rispetto al lazo normale ?

Ecco due esempi di implementazione nel pacchetto:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Quindi, quando dovrei usare uno o altri metodi? Oppure sono gli stessi?

Risposta

Il lazo standard utilizza una penalità di regolarizzazione L1 per ottenere la scarsità nella regressione. Nota che questo è anche noto come Basis Pursuit .

Nel framework bayesiano, la scelta del regolarizzatore è analoga alla scelta del priore rispetto i pesi. Se viene utilizzata una priorità gaussiana, la soluzione di massimo a posteriori (MAP) sarà la stessa come se fosse stata utilizzata una penalità L2. Sebbene non sia direttamente equivalente, il Laplace prior (che ha un picco bruscamente intorno allo zero, a differenza del gaussiano che è liscio intorno allo zero), produce lo stesso effetto di restringimento per la penalità L1. Questo documento descrive il lasso bayesiano. .

In effetti, quando si inserisce un Laplace prima sui parametri, la soluzione MAP dovrebbe essere identica (non semplicemente simile) alla regolarizzazione con penalità L1 e il priore di Laplace produrrà un effetto di restringimento identico alla penalità L1. Tuttavia, a causa delle approssimazioni nella procedura di inferenza bayesiana o di altri problemi numerici, le soluzioni potrebbero non essere effettivamente identiche.

Nella maggior parte dei casi, i risultati prodotti da entrambi i metodi saranno molto simili. A seconda del metodo di ottimizzazione e se vengono utilizzate approssimazioni, il lazo standard sarà probabilmente più efficiente da calcolare rispetto alla versione bayesiana. Il bayesiano produce automaticamente stime di intervallo per tutti i parametri, inclusa la varianza dellerrore, se necessari.

Commenti

  • ” Se viene utilizzata una priorità gaussiana, la soluzione Probabilità massima sarà la stessa …. “. La frase evidenziata dovrebbe essere ” Maximum A Posteriori (MAP) ” perché la stima di Maximum Likelihood ignorerà semplicemente la distribuzione precedente sui parametri, portando a una soluzione non regolamentata mentre la stima MAP prende in considerazione il precedente.
  • Quando si posiziona un Laplace a priori sui parametri, la soluzione MAP sarà identica (non semplicemente simile) alla regolarizzazione con la penalità L1 e Laplace prior produrrà un effetto di restringimento identico alla penalità L1.
  • @mefathy sì, ‘ hai ragione su entrambi i fronti (puoi ‘ Non credo di aver scritto ML invece di MAP ….), anche se ovviamente in pratica YMMV. Ho ‘ ho aggiornato la risposta per incorporare entrambi i commenti.

Risposta

“Minimi quadrati” significa che la soluzione complessiva minimizza la somma dei quadrati degli errori fatti nei risultati di ogni singola equazione. Lapplicazione più importante è nelladattamento dei dati. Il miglior adattamento nel senso dei minimi quadrati minimizza la somma dei residui al quadrato, essendo un residuo la differenza tra un valore osservato e il valore adattato fornito da un modello.I problemi dei minimi quadrati rientrano in due categorie: lineari o minimi quadrati ordinari e non minimi quadrati lineari, a seconda che i residui siano lineari o meno in tutte le incognite.

Regressione lineare bayesiana è un approccio alla regressione lineare in cui lanalisi statistica viene eseguita nel contesto di inferenza bayesiana. Quando il modello di regressione ha errori che hanno una distribuzione normale e se si assume una particolare forma di distribuzione a priori, sono disponibili risultati espliciti per le distribuzioni di probabilità a posteriori dei parametri del modello.

In alcuni contesti a può essere preferibile la versione regolarizzata della soluzione dei minimi quadrati. La regolarizzazione di Tikhonov (o regressione di cresta) aggiunge un vincolo che $ \ | \ beta \ | ^ 2 $, la norma L2 del vettore parametro, non è maggiore di un dato valore. In un contesto bayesiano, ciò equivale a posizionare una media zero normalmente distribuita a priori sul vettore del parametro.

Una versione regolarizzata alternativa dei minimi quadrati è Lazo (restringimento minimo assoluto e operatore di selezione), che utilizza loperatore vincolo che $ \ | \ beta \ | _1 $, la norma L1 del vettore parametro, non sia maggiore di un dato valore . In un contesto bayesiano, ciò equivale a posizionare una distribuzione precedente di Laplace a media zero sul parametro vettore.

Una delle principali differenze tra Lazo e regressione di cresta è che nella regressione di cresta, allaumentare della penalità, tutti i parametri vengono ridotti pur rimanendo diversi da zero, mentre in Lasso, aumentare la penalità provocherà di più e altri parametri da portare a zero.

Questo documento confronta il lazo regolare con il lazo bayesiano e la regressione della cresta (vedere figura 1 ) .

Risposta

Ritengo che le risposte attuali a questa domanda non rispondano realmente alle domande, che erano “Quali sono le differenze o i vantaggi di lazo baysiano (sic) vs lazo regolare? ” e “sono la stessa cosa?”

Primo, non sono la stessa cosa.

La differenza fondamentale è: il lazo bayesiano tenta di campionare dalla distribuzione a posteriori completa dei parametri, sotto un priore di Laplace, mentre il lazo sta tentando di trovare la modalità posteriore (anche sotto un priore di Laplace). In pratica la distribuzione posteriore completa dal lazo bayesiano è solitamente riassunta dalla media posteriore, quindi in pratica questo si riduce a questo:

Il lazo bayesiano tenta di trovare la media posteriore sotto un precedente di Laplace mentre il lazo tenta di trovare la modalità a posteriori sotto un Laplace precedente

Il vantaggio della media a posteriori rispetto alla modalità a posteriori è che la media a posteriori produrrà una migliore accuratezza di previsione (assumendo la perdita quadratica media) se il Laplace prior è in realtà un vero riflesso della distribuzione dei coefficienti di regressione. Tuttavia, questo vantaggio è dubbio in pratica poiché in molte applicazioni il Laplace prior non è un vero riflesso della distribuzione dei coefficienti (e in generale questo è difficile da verificare!)

I vantaggi del modo posteriore includi che è computazionalmente molto più facile da trovare (è un problema di ottimizzazione convessa).

Potresti notare che non ho risposto “quando dovrei usare uno o altri metodi”. Questo perché questa è una domanda difficile a cui rispondere in generale. La mia risposta sarebbe che generalmente ci sono metodi migliori di uno di questi. Ma una discussione completa di questo richiederebbe un post più lungo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *