Bayesi laszó vs közönséges lasszó

Különböző megvalósítási szoftverek állnak rendelkezésre a lasso . Sokat tudok a fórumokon a bayesi és a gyakori megközelítésről. A kérdésem nagyon konkrétan a lasszóra vonatkozik – Milyen különbségek vagy előnyök vannak a baysian lasso és a szokásos lasso ?

Íme két példa a csomag megvalósításáról:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Tehát mikor kell eljárnom egy vagy másik módszer mellett? Vagy azonosak?

Válasz

A standard lasso L1 szabályozási büntetést alkalmaz a regresszió ritkaságának eléréséhez. Ne feledje, hogy ezt más néven Alapvető törekvés néven is ismertetik.

A Bayes-i keretrendszerben a regularizátor kiválasztása analóg a prior megválasztásával a súlyokat. Ha Gauss-priorot használunk, akkor a Maximum a Posteriori (MAP) megoldás megegyezik azzal, mintha L2-es büntetést alkalmaznának. Noha nem közvetlenül egyenértékű, a Laplace-prior (amely élesen tetőzött nulla körül, ellentétben a nulla körüli sima Gauss-szal), ugyanolyan zsugorító hatást vált ki, mint az L1 büntetés. Ez a cikk a Bayesian Lasso leírását írja le. .

Valójában, amikor egy Laplace-et előbbre helyezünk a paraméterek fölött, a MAP-megoldásnak azonosnak kell lennie. (nem pusztán hasonló) az L1-büntetéssel és a Laplace-priori rendszeresítéssel azonos zsugorodási hatást produkál, mint az L1-büntetés. A Bayes-i következtetési eljárás közelítései vagy más numerikus kérdések miatt azonban a megoldások valójában nem lehetnek azonosak.

A legtöbb esetben mindkét módszerrel kapott eredmények nagyon hasonlóak lesznek. Az optimalizálási módszertől és a közelítések alkalmazásától függően a standard lasszó valószínűleg hatékonyabban kiszámítható, mint a bayesi változat. A Bayesian automatikusan elkészíti az összes paraméter intervallumbecslését, beleértve a hiba szórását is.

Megjegyzések

  • ” Ha Gauss-priorot használunk, akkor a Maximum Likelihood megoldás megegyezik …. “. A kiemelt kifejezésnek ” Maximum A Posteriori (MAP) ” értéknek kell lennie, mert a Maximum Likelihood becslés csak figyelmen kívül hagyja a paraméterek közötti korábbi elosztást, ami nem szabályozott megoldáshoz, míg a MAP-becslés figyelembe veszi az előzményeket.
  • Ha a Laplace-et a paraméterek fölé helyezzük, akkor a MAP-megoldás megegyezik (nem pusztán hasonlóval) az L1-büntetéssel és a Laplace-szel való szabályozással. a prior azonos zsugorító hatást vált ki, mint az L1 büntetés.
  • @mefathy yes you ‘ mindkét esetben igazad van (‘ nem hiszem, hogy MAP-t írtam MAP helyett ….), bár természetesen a gyakorlatban YMMV.

frissítettem a választ, hogy mindkét megjegyzés beépüljön.

Válasz

A “legkisebb négyzetek” azt jelenti, hogy az átfogó megoldás minimalizálja az egyes egyenletek eredményeiben elkövetett hibák négyzetének összegét. A legfontosabb alkalmazás az adatok illesztésében rejlik. A legkisebb négyzetek szempontjából a legjobb illeszkedés minimálisra csökkenti a maradványok négyzetének összegét, a maradék pedig a megfigyelt érték és a modell által biztosított illesztett érték közötti különbség. A legkisebb négyzetek problémái két kategóriába sorolhatók: lineáris vagy hétköznapi legkisebb négyzetek és nem lineáris legkisebb négyzetek, attól függően, hogy a maradványok minden ismeretlenben lineárisak-e vagy sem.

Bayesi lineáris regresszió a lineáris regresszió megközelítése, amelyben a statisztikai elemzést a kontextusban végzik a bayesi következtetésről. Ha a regressziós modell hibái normális eloszlásúak, és ha feltételezzük az előzetes eloszlás egy bizonyos formáját, akkor explicit eredmények állnak rendelkezésre a modell paramétereinek hátsó valószínűségi eloszlásaival kapcsolatban.

Bizonyos esetekben a Előnyös lehet a legkisebb négyzetek megoldásának normalizált változata. Tikhonov-féle szabályozás (vagy gerincregresszió) olyan korlátozást ad hozzá, hogy a $ \ | \ beta \ | ^ 2 $, a paramétervektor L2-normája nem nagyobb, mint egy adott érték. Bayesi összefüggésben ez egyenértékű azzal, hogy a paramétervektor elé normál eloszlású nulla átlagot helyezünk el.

A legkisebb négyzetek alternatív legalizált változata a Lasso (a legkevesebb abszolút zsugorodás és kiválasztás operátor), amely a megkötés, hogy a $ \ | \ beta \ | _1 $, a paraméter vektor L1-normája, nem nagyobb, mint egy adott érték . Bayes-i kontextusban ez egyenértékű azzal, hogy a nullára a Laplace előtti eloszlást helyezzük a paraméterre vektor.

Az egyik legfőbb különbség a Lasso és a gerinc regresszió között az, hogy a gerinc regresszióban a büntetés növelésével az összes paraméter csökken, miközben továbbra is nulla marad, míg Lassóban a büntetés növelése többet eredményez. és még több paramétert nullára kell vezetni.

Ez a cikk összehasonlítja a szabályos lasszót a Bayesi laszóval és a gerinc regresszióval (lásd 1. ábra ) .

Válasz

Úgy érzem, hogy a kérdésre adott jelenlegi válaszok nem igazán válaszolnak a következő kérdésekre: “Milyen különbségek vagy előnyök vannak” a baysian (sic) lasszó és a szabályos lasso közül? ” és “ugyanazok?”

Először is, nem azonosak.

A legfontosabb különbség: A Bayes-i lasszó megpróbál mintát venni a paraméterek teljes hátsó eloszlásából, Laplace prior alatt, míg a lasso megkísérli megtalálni a hátsó módot (szintén Laplace prior alatt). A gyakorlatban a Bayes-lasszóból származó teljes hátsó eloszlást általában a hátsó középértékkel foglalják össze, így a gyakorlatban ez erre utal:

A Bayesi laszó megkísérli megtalálni a hátsó középértéket egy Laplace-előtét alatt, míg a lasso megkísérli megtalálni a hátsó módot egy Laplace prior alatt.

A hátsó átlag és a hátsó mód előnye, hogy a hátsó átlag jobb előrejelzési pontosságot eredményez (az átlagos négyzet veszteséget feltételezve), ha a Laplace-prioritás valójában a regressziós együtthatók eloszlásának valódi tükröződése. Ez az előny azonban kétséges a gyakorlatban, mivel sok alkalmazásban a Laplace prior nem tükrözi az együtthatók eloszlását (és ezt általában nehéz ellenőrizni!)

A hátsó mód előnyei tartalmazza, hogy számítási szempontból sokkal könnyebb megtalálni (ez egy domború optimalizálási probléma).

Észreveheti, hogy nem válaszoltam, hogy „mikor kell választanom egy vagy másik módszer mellett”. Ez azért van, mert erre általában nehéz megválaszolni a kérdést. A válaszom az lenne, hogy általában vannak jobb módszerek, mint ezek. De ennek teljes megvitatásához hosszabb posztra lenne szükség.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük