Bayesian lasso vs vanlig lasso

Ulike implementeringsprogramvare er tilgjengelig for lasso . Jeg vet mye diskutert om bayesisk tilnærming mot hyppig tilnærming i forskjellige fora. Spørsmålet mitt er veldig spesifikt for lasso – Hva er forskjeller eller fordeler med baysian lasso vs vanlig lasso ?

Her er to eksempler på implementering i pakken:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Så når skal jeg gå for en eller annen metode? Eller er de like?

Svar

Standard lasso bruker en L1 reguleringsstraff for å oppnå sparsitet i regresjon. Merk at dette også er kjent som Basisforfølgelse .

I Bayesian-rammeverket er valget av regulator analogt med valget av tidligere over vektene. Hvis en Gaussisk prior brukes, vil Maximum a Posteriori (MAP) -løsningen være den samme som om en L2-straff ble brukt. Selv om det ikke er direkte ekvivalent, produserer Laplace prior (som er skarpt toppet rundt null, i motsetning til Gaussian som er glatt rundt null), den samme krympingseffekten til L1-straffen. Denne artikkelen beskriver Bayesian Lasso. .

Når du plasserer en Laplace foran parametrene, bør MAP-løsningen være identisk (ikke bare lignende) til regulering med L1-straffen og Laplace-prior vil gi en identisk krympeffekt som L1-straffen. Imidlertid, på grunn av enten tilnærminger i den Bayesianske inferensprosedyren, eller andre numeriske problemer, kan det hende at løsningene ikke er identiske.

I de fleste tilfeller vil resultatene som produseres av begge metodene være veldig like. Avhengig av optimaliseringsmetoden og om tilnærminger brukes, vil standard lasso sannsynligvis være mer effektiv å beregne enn den Bayesiske versjonen. Bayesian produserer automatisk intervallestimater for alle parametrene, inkludert feilavvik, hvis disse er nødvendige.

Kommentarer

  • » Hvis en gaussisk prior blir brukt, vil Maksimal sannsynlighet løsningen være den samme …. «. Den uthevede setningen skal lese » Maksimum A Posteriori (MAP) » fordi Maksimal sannsynlighet estimering vil bare ignorere den tidligere fordelingen over parametrene, førende til en uregelmessig løsning mens MAP-estimering tar hensyn til det foregående.
  • Når du plasserer en Laplace foran parametrene, vil MAP-løsningen være identisk (ikke bare lik) med regularisering med L1-straffen og Laplace prior vil gi en identisk krympingseffekt til L1-straffen.
  • @mefathy ja du ‘ har rett på begge punkter (kan ‘ t tror jeg skrev ML i stedet for MAP ….), selv om det selvfølgelig i praksis er YMMV. Jeg ‘ har oppdatert svaret for å inkludere begge kommentarene.

Svar

«Minst kvadrater» betyr at den samlede løsningen minimerer summen av kvadratene av feilene som er gjort i resultatene av hver enkelt ligning. Den viktigste applikasjonen er i datatilpasning. Den beste passformen i minste kvadraters forstand minimerer summen av kvadratiske rester, en rest er forskjellen mellom en observert verdi og den tilpassede verdien som tilbys av en modell. Problemer med rute i kvadrat faller i to kategorier: lineære eller vanlige minste kvadrater og ikke lineære minste kvadrater, avhengig av om restene er lineære i alle ukjente.

Bayesisk lineær regresjon er en tilnærming til lineær regresjon der den statistiske analysen utføres i sammenheng av Bayesian slutning. Når regresjonsmodellen har feil som har en normalfordeling, og hvis det antas en bestemt form for tidligere fordeling, er eksplisitte resultater tilgjengelige for de bakre sannsynlighetsfordelingene av modellens parametere.

I noen sammenhenger a regulert versjon av løsningen med minste firkanter kan være å foretrekke. Tikhonov-regulering (eller ryggregresjon) legger til en begrensning at $ \ | \ beta \ | ^ 2 $, L2-normen til parametervektoren, ikke er større enn en gitt verdi. I en Bayesisk sammenheng tilsvarer dette å plassere et null-middel som normalt er fordelt tidligere på parametervektoren.

En alternativ regulert versjon av minste kvadrater er Lasso (minst absolutt krymping og valgoperator), som bruker begrense at $ \ | \ beta \ | _1 $, L1-normen til parametervektoren, ikke er større enn en gitt verdi . I Bayesian-sammenheng tilsvarer dette å plassere en null-gjennomsnittlig Laplace-fordeling tidligere på parameteren vektor.

En av de viktigste forskjellene mellom Lasso og ryggregresjon er at i ryggregresjon, når straffen økes, reduseres alle parametere mens de fortsatt er null, mens i Lasso vil økt straff føre til mer og flere av parametrene som skal kjøres til null.

Denne artikkelen sammenligner vanlig lasso med Bayesian lasso og ryggregresjon (se figur 1 ) .

Svar

Jeg føler at de nåværende svarene på dette spørsmålet ikke egentlig svarer på spørsmålene, som var «Hva er forskjeller eller fordeler av baysian (sic) lasso vs vanlig lasso? » og «er de det samme?»

For det første er de ikke det samme.

Hovedforskjellen er: Bayesian lasso prøver å prøve fra den fullstendige bakre fordelingen av parametrene, under en Laplace prior, mens lasso prøver å finne den bakre modusen (også under en Laplace prior). I praksis blir full posterior fordeling fra Bayesian lasso vanligvis oppsummert av posterior gjennomsnitt, så i praksis koker dette ned til dette:

The Bayesian lasso prøver å finne det bakre gjennomsnittet under en Laplace prior mens lasso prøver å finne den bakre modusen under en Laplace prior

Fordelen med den bakre gjennomsnittet mot den bakre modusen er at den bakre gjennomsnittet vil gi bedre spådommer (antar gjennomsnittlig kvadratisk tap) hvis Laplace prior er faktisk en sann refleksjon av fordelingen av regresjonskoeffisientene. Denne fordelen er imidlertid tvilsom i praksis, siden Laplace prior i mange applikasjoner ikke er en reell refleksjon av fordelingen av koeffisientene (og generelt er det vanskelig å sjekke!)

Fordelene med den bakre modusen inkluderer at det er beregningsmessig mye lettere å finne (det er et konveks optimaliseringsproblem).

Du vil kanskje legge merke til at jeg ikke svarte «når skal jeg gå etter en eller annen metode». Det er fordi dette er et vanskelig spørsmål å svare generelt på. Svaret mitt vil være at det generelt er bedre metoder enn noen av disse. Men full diskusjon av dette vil kreve et lengre innlegg.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *