Bayesisk lasso vs almindelig lasso

Forskellige implementeringssoftware er tilgængelige til lasso . Jeg ved meget diskuteret om bayesisk tilgang vs hyppig tilgang i forskellige fora. Mit spørgsmål er meget specifikt for lasso – Hvad er forskelle eller fordele ved baysian lasso vs almindelig lasso ?

Her er to eksempler på implementering i pakken:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Så hvornår skal jeg gå efter en eller anden metode? Eller er de ens?

Svar

Standard lasso bruger en L1 reguleringsstraff for at opnå sparsomhed i regression. Bemærk, at dette også er kendt som Basisforfølgelse .

I Bayesian-rammen er valget af regulator analogt med valget af tidligere end vægtene. Hvis der anvendes en Gaussisk prior, vil den maksimale a posteriori (MAP) -opløsning være den samme som hvis en L2-straf blev brugt. Selvom det ikke er direkte ækvivalent, producerer Laplace prior (som er skarpt toppet omkring nul, i modsætning til den Gaussiske, som er glat omkring nul) den samme krympningseffekt til L1-straf. Dette papir beskriver Bayesian Lasso. .

Når du placerer en Laplace før parametrene, skal MAP-løsningen være identisk (ikke kun ens) til regulering med L1-straf og Laplace-forudgående vil producere en identisk krympningseffekt som L1-straf. På grund af enten tilnærmelser i Bayesian-inferensproceduren eller andre numeriske problemer er løsninger muligvis ikke identiske.

I de fleste tilfælde vil resultaterne, der produceres ved begge metoder, være meget ens. Afhængig af optimeringsmetoden, og om der anvendes tilnærmelser, vil standard lasso sandsynligvis være mere effektiv at beregne end den Bayesiske version. Bayesian producerer automatisk intervalestimater for alle parametrene, inklusive fejlvariansen, hvis disse er påkrævet.

Kommentarer

  • ” Hvis der anvendes en Gaussisk prior, er Maksimal sandsynlighed løsningen den samme …. “. Den fremhævede sætning skal læse ” Maksimum A Posteriori (MAP) ” fordi maksimalt sandsynlighedsestimat bare ignorerer den tidligere fordeling over parametrene, hvilket fører til en uregelmæssig løsning, mens MAP-estimering tager det foregående i betragtning.
  • Når du placerer en Laplace før parametrene, vil MAP-løsningen være identisk (ikke kun ens) med normalisering med L1-straf og Laplace prior vil producere en identisk krympningseffekt til L1-sanktionen.
  • @mefathy ja du ‘ har ret i begge tællinger (kan ‘ tror ikke, jeg skrev ML i stedet for MAP ….), selvom det i praksis selvfølgelig er YMMV. Jeg ‘ har opdateret svaret for at inkorporere begge kommentarer.

Svar

“Mindste firkanter” betyder, at den samlede løsning minimerer summen af firkanterne af de fejl, der er foretaget i resultaterne af hver enkelt ligning. Den vigtigste anvendelse er i datatilpasning. Den bedste pasform i mindste kvadraters forstand minimerer summen af kvadratiske rester, en rest er forskellen mellem en observeret værdi og den tilpassede værdi, der leveres af en model. Problemer med mindst kvadrater falder i to kategorier: lineære eller almindelige mindste kvadrater og ikke lineære mindste kvadrater, afhængigt af om resterne er lineære i alle ukendte.

Bayesisk lineær regression er en tilgang til lineær regression, hvor den statistiske analyse foretages inden for konteksten af Bayesian slutning. Når regressionsmodellen har fejl, der har en normalfordeling, og hvis der antages en bestemt form for forudgående distribution, er eksplicitte resultater tilgængelige for de posteriore sandsynlighedsfordelinger af modelens parametre.

I nogle sammenhænge a reguleret version af løsningen med mindst kvadrater kan være at foretrække. Tikhonov-regulering (eller ryggregression) tilføjer en begrænsning om, at $ \ | \ beta \ | ^ 2 $, parametervektorens L2-norm, ikke er større end en given værdi. I en Bayesisk sammenhæng svarer dette til at placere et nul-middel, der normalt fordeles tidligere på parametervektoren.

En alternativ reguleret version af mindste kvadrater er Lasso (mindst absolut krympnings- og markeringsoperator), der bruger begrænsning for, at $ \ | \ beta \ | _1 $, parametervektorens L1-norm, ikke er større end en given værdi I en Bayesisk sammenhæng svarer dette til at placere en nul-middel Laplace forudgående distribution på parameteren vektor.

En af de største forskelle mellem Lasso og højderygsregression er, at i højderygsregression, når straffen øges, reduceres alle parametre, mens de stadig forbliver nul, mens i Lasso vil øge sanktionen medføre mere og flere af de parametre, der skal køres til nul.

Dette papir sammenligner regelmæssig lasso med Bayesisk lasso og højderygsregression (se figur 1 ) .

Svar

Jeg føler, at de nuværende svar på dette spørgsmål ikke rigtig svarer på spørgsmålene, som var “Hvad er forskelle eller fordele af baysian (sic) lasso vs almindelig lasso? ” og “er de de samme?”

For det første er de ikke de samme.

Hovedforskellen er: Den bayesiske lasso forsøger at prøve fra den fulde posterior fordeling af parametrene, under en Laplace prior, hvorimod lasso forsøger at finde den bageste tilstand (også under en Laplace prior). I praksis opsummeres den fulde posteriore fordeling fra Bayesian lasso normalt af det posteriore gennemsnit, så i praksis koges det ned til dette:

Den Bayesiske lasso forsøger at finde det bageste gennemsnit under en Laplace forud for mens lasso forsøger at finde den bageste tilstand under en Laplace forud

Fordelen ved den bageste gennemsnit vs den bageste tilstand er, at den bageste gennemsnit vil producere bedre forudsigelsesnøjagtighed (forudsat gennemsnitlig kvadratisk tab), hvis Laplace prior er faktisk en sand afspejling af fordelingen af regressionskoefficienter. Denne fordel er dog tvivlsom i praksis, da Laplace tidligere i mange applikationer ikke er en reel afspejling af fordelingen af koefficienterne (og generelt er det vanskeligt at kontrollere!)

Fordelene ved den bageste tilstand inkluderer, at det er beregningsmæssigt meget lettere at finde (det er et konveks optimeringsproblem).

Du bemærker muligvis, at jeg ikke svarede “hvornår skal jeg gå efter en eller anden metode”. Det er fordi dette er et svært spørgsmål at besvare generelt. Mit svar ville være, at der generelt er bedre metoder end nogen af disse. Men fuld diskussion af dette ville kræve et længere indlæg.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *