Lasso Bayesian vs Lasso obișnuit

Sunt disponibile diferite programe de implementare pentru lasso . Știu multe discuții despre abordarea bayesiană vs abordarea frecventistă în diferite forumuri. Întrebarea mea este foarte specifică lasso – Care sunt diferențele sau avantajele lasso-ului baysian față de lasso obișnuit ?

Iată două exemple de implementare în pachet:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Deci, când ar trebui să aleg una sau alte metode? Sau sunt la fel?

Răspuns

Lasso-ul standard folosește o penalizare de regularizare L1 pentru a atinge raritatea în regresie. Rețineți că acest lucru este, de asemenea, cunoscut sub numele de Urmărirea bazei .

În cadrul bayesian, alegerea regulatorului este analogă cu alegerea priorității peste greutățile. Dacă se utilizează un prior Gaussian, atunci soluția Maximum a Posteriori (MAP) va fi aceeași ca și când s-ar folosi o penalizare L2. Deși nu este direct echivalent, priorul Laplace (care are un vârf puternic în jurul valorii de zero, spre deosebire de Gaussian, care este neted în jurul valorii de zero), produce același efect de contracție la penalizarea L1. Această lucrare descrie Lazo Bayesian. .

De fapt, atunci când plasați un Laplace prior asupra parametrilor, soluția MAP ar trebui să fie identică (nu doar similar) cu regularizarea cu penalizarea L1 și Laplace anterior va produce un efect de contracție identic cu penalizarea L1. Cu toate acestea, datorită fie aproximărilor în procedura de inferență bayesiană, fie a altor probleme numerice, soluțiile nu pot fi de fapt identice.

În majoritatea cazurilor, rezultatele obținute prin ambele metode vor fi foarte similare. În funcție de metoda de optimizare și dacă se utilizează aproximări, lasso-ul standard va fi probabil mai eficient de calculat decât versiunea bayesiană. Bayesianul produce automat estimări ale intervalului pentru toți parametrii, inclusiv varianța erorii, dacă acestea sunt necesare.

Comentarii

  • ” Dacă se folosește un prior Gaussian, atunci soluția Probabilitate maximă va fi aceeași …. „. Fraza evidențiată ar trebui să citească ” Maximum A Posteriori (MAP) ” deoarece estimarea Maximum Likelihood va ignora doar distribuția anterioară asupra parametrilor, conducând la o soluție neregulată, în timp ce estimarea MAP ia în considerare prioritatea.
  • Când plasați un Laplace anterior asupra parametrilor, soluția MAP va fi identică (nu doar similară) cu regularizarea cu penalizarea L1 și Laplace anterior va produce un efect de contracție identic cu penalizarea L1.
  • @mefathy da, ‘ aveți dreptate pe ambele puncte (puteți ‘ nu cred că am scris ML în loc de MAP ….), deși, desigur, în practică YMMV. Am ‘ am actualizat răspunsul pentru a încorpora ambele comentarii.

Răspuns

„Cel mai mic pătrat” înseamnă că soluția generală minimizează suma pătratelor erorilor făcute în rezultatele fiecărei ecuații. Cea mai importantă aplicație este adaptarea datelor. Cea mai bună potrivire în sensul celor mai mici pătrate minimizează suma reziduurilor pătrate, un rezidual fiind diferența dintre o valoare observată și valoarea ajustată furnizată de un model. Problemele cu cele mai mici pătrate se împart în două categorii: cele mai mici liniare sau obișnuite și non- minime pătrate liniare, în funcție de dacă reziduurile sunt sau nu liniare în toate necunoscutele.

Regresia liniară bayesiană este o abordare a regresiei liniare în care analiza statistică este realizată în context de inferență bayesiană. Când modelul de regresie are erori care au o distribuție normală și dacă se presupune o anumită formă de distribuție anterioară, sunt disponibile rezultate explicite pentru distribuțiile de probabilitate posterioare ale parametrilor modelului.

În unele contexte, versiunea regularizată a soluției celor mai mici pătrate poate fi preferabilă. Regularizarea Tikhonov (sau regresia crestei) adaugă o constrângere că $ \ | \ beta \ | ^ 2 $, norma L2 a vectorului parametru, nu este mai mare decât o valoare dată. În context bayesian, acest lucru este echivalent cu plasarea unei medii zero distribuite în mod normal în prealabil pe vectorul de parametri.

O versiune alternativă regularizată a celor mai mici pătrate este Lasso (cel mai mic operator de contracție și selecție absolut), care folosește constrângere că $ \ | \ beta \ | _1 $, norma L1 a vectorului parametru, nu este mai mare decât o valoare dată Într-un context bayesian, acest lucru este echivalent cu plasarea unei distribuții anterioare Laplace zero pe parametru vector.

Una dintre diferențele principale dintre Lasso și regresia crestei este că în regresia crestei, pe măsură ce penalizarea este crescută, toți parametrii sunt reduși, rămânând totuși diferiți de zero, în timp ce în Lasso, creșterea penalizării va cauza mai mult și mai mulți dintre parametrii care trebuie conduși la zero.

Această lucrare compară lasso-ul regulat cu lasso-ul bayesian și regresia crestei (a se vedea figura 1 ) .

Răspuns

Cred că răspunsurile actuale la această întrebare nu răspund cu adevărat la întrebările care erau „Care sunt diferențele sau avantajele de lasso baysian (sic) vs lasso obișnuit? ” și „sunt aceiași?”

În primul rând, nu sunt la fel.

Diferența cheie este: Lazo Bayesian încearcă să probeze din distribuția posterioară completă a parametrilor, sub un prior Laplace, în timp ce lasso încearcă să găsească modul posterior (tot sub un prior Laplace). În practică, distribuția posterioară completă din lasso bayesian este de obicei rezumată prin media posterioară, deci în practică aceasta se rezumă la acest lucru:

Lasso Bayesian încearcă să găsească media posterioară sub un Laplace anterior, întrucât lasso încearcă să găsească modul posterior sub un Laplace anterior

Avantajul mediei posterioare față de modul posterior este că media posterioară va produce o precizie mai bună de predicție (presupunând pierderea medie pătrată) dacă priorul Laplace este de fapt o adevărată reflectare a distribuției coeficienților de regresie. Cu toate acestea, acest avantaj este dubios în practică, deoarece în multe aplicații Laplace prior nu este o reflectare adevărată a distribuției coeficienților (și, în general, acest lucru este dificil de verificat!)

Avantajele modului posterior includeți că este mult mai ușor de găsit din punct de vedere computerizat (este o problemă de optimizare convexă).

Este posibil să observați că nu am răspuns „când ar trebui să aleg una sau alte metode”. Acest lucru se datorează faptului că este o întrebare greu de răspuns în general. Răspunsul meu ar fi că, în general, există metode mai bune decât oricare dintre acestea. Dar discutarea completă a acestui lucru ar necesita un post mai lung.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *