Bayesian lasso vs vanlig lasso (Svenska)

Olika implementeringsprogram är tillgängliga för lasso . Jag vet mycket diskuterat om bayesisk strategi jämfört med frekventistiska tillvägagångssätt i olika forum. Min fråga är väldigt specifik för lasso – Vad är skillnader eller fördelar med baysian lasso vs vanlig lasso ?

Här är två exempel på implementering i paketet:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Så när ska jag välja en eller annan metod? Eller är de samma?

Svar

Standard lasso använder en L1 normaliseringsstraff för att uppnå gleshet i regression. Observera att detta också är känt som Grundsträvan .

I Bayesian-ramen är valet av regulator analogt med valet av tidigare över vikterna. Om en Gaussisk prior används, är Maximum a Posteriori (MAP) -lösningen densamma som om en L2-straff användes. Även om det inte är direkt ekvivalent, producerar Laplace prior (som är kraftigt toppad runt noll, till skillnad från Gaussian som är slät runt noll), samma krympningseffekt till L1-straffet. Det här dokumentet beskriver Bayesian Lasso. .

När du placerar en Laplace före parametrarna ska MAP-lösningen vara identisk (inte bara liknar) för normalisering med L1-straffet och Laplace-föregående kommer att ge en identisk krympningseffekt som L1-straffen. Men på grund av antingen approximationer i Bayesian-inferensförfarandet eller andra numeriska problem kan lösningar inte vara identiska.

I de flesta fall kommer resultaten som produceras med båda metoderna att vara mycket lika. Beroende på optimeringsmetoden och om approximationer används kommer standard lasso förmodligen att vara mer effektiv att beräkna än den bayesiska versionen. Bayesian producerar automatiskt intervalluppskattningar för alla parametrar, inklusive felvariansen, om dessa krävs.

Kommentarer

  • ” Om en Gaussisk prior används, är Maximal sannolikhet lösningen densamma …. ”. Den markerade frasen ska läsa ” Maximum A Posteriori (MAP) ” eftersom maximal sannolikhetsuppskattning bara ignorerar den tidigare fördelningen över parametrarna, vilket leder till en oreglerad lösning medan MAP-uppskattning tar hänsyn till den tidigare.
  • När du placerar en Laplace före parametrarna kommer MAP-lösningen att vara identisk (inte bara lik) med normalisering med L1-straffet och Laplace prior kommer att ge en identisk krympningseffekt till L1-straffet.
  • @mefathy ja du ’ har rätt på båda punkterna (kan ’ tror inte att jag skrev ML istället för MAP ….), men naturligtvis i praktiken YMMV. Jag ’ har uppdaterat svaret för att inkludera båda kommentarerna.

Svar

”Minsta kvadrater” betyder att den övergripande lösningen minimerar summan av kvadraterna av felen som gjorts i resultaten av varje enskild ekvation. Den viktigaste applikationen är datatillbehör. Den bästa passformen i minsta kvadratiska betydelse minimerar summan av kvadratiska rester, en rest är skillnaden mellan ett observerat värde och det anpassade värdet som tillhandahålls av en modell. Problem med läst kvadrater faller i två kategorier: linjära eller vanliga minsta kvadrater och icke- linjära minsta kvadrater, beroende på om resterna är linjära i alla okända.

Bayesiansk linjär regression är ett tillvägagångssätt för linjär regression där den statistiska analysen genomförs inom sammanhanget av Bayesian slutsats. När regressionsmodellen har fel som har en normalfördelning, och om en viss form av tidigare distribution antas, finns explicita resultat tillgängliga för de bakre sannolikhetsfördelningarna av modellens parametrar.

I vissa sammanhang är a regelbunden version av lösningen med minsta kvadrater kan vara att föredra. Tikhonov-regelbundenhet (eller åsregression) lägger till en begränsning att $ \ | \ beta \ | ^ 2 $, parametervektorns L2-norm, inte är större än ett givet värde. I Bayesian-sammanhang motsvarar detta att placera ett nollmedelvärde som normalt distribueras tidigare på parametervektorn.

En alternativ normaliserad version av minsta kvadrater är Lasso (minst absolut krympnings- och markeringsoperator), som använder begränsning att $ \ | \ beta \ | _1 $, parametervektorns L1-norm, inte är större än ett givet värde I Bayesian-sammanhang motsvarar detta att placera en noll-genomsnittlig Laplace-tidigare distribution på parametern vektor.

En av de främsta skillnaderna mellan Lasso och åsen regression är att i åsen regression, när straffet ökas, minskas alla parametrar medan de fortfarande förblir noll, medan i Lasso, ökning av straffen kommer att orsaka mer och fler av de parametrar som ska drivas till noll.

Detta papper jämför vanlig lasso med Bayesisk lasso och åsregression (se figur 1 ) .

Svar

Jag känner att de aktuella svaren på denna fråga inte riktigt svarar på frågorna, vilka var ”Vad är skillnader eller fördelar av baysian (sic) lasso vs vanlig lasso? ” och ”är de desamma?”

För det första är de inte desamma.

Huvudskillnaden är: Bayesian lasso försöker prova från den fullständiga bakre fördelningen av parametrarna, under en Laplace prior, medan lasso försöker hitta det bakre läget (även under en Laplace prior). I praktiken sammanfattas vanligtvis den fulla bakre fördelningen från Bayesian lasso av det bakre medelvärdet, så i praktiken handlar det om detta:

Den Bayesiska lasso försöker hitta det bakre medelvärdet under en Laplace innan medan lasso försöker hitta det bakre läget under en Laplace prior

Fördelen med det bakre medelvärdet jämfört med det bakre läget är att det bakre medelvärdet ger bättre förutsägelsesnoggrannhet (förutsatt att man antar genomsnittlig kvadratförlust) om Laplace prior är faktiskt en sann reflektion av fördelningen av regressionskoefficienterna. Denna fördel är emellertid tvivelaktig i praktiken, eftersom Laplace i många applikationer inte är en verklig reflektion av fördelningen av koefficienterna (och i allmänhet är det svårt att kontrollera!)

Fördelarna med det bakre läget inkludera att det är beräkningsmässigt mycket lättare att hitta (det är ett konvext optimeringsproblem).

Du kanske märker att jag inte svarade ”när ska jag gå efter en eller annan metod”. Det beror på att det här är en svår fråga att besvara i allmänhet. Mitt svar skulle vara att det i allmänhet finns bättre metoder än någon av dessa. Men en fullständig diskussion om detta skulle kräva ett längre inlägg.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *