Bayesovské laso vs. obyčejné laso

Pro laso . Vím hodně diskutovaných o bayesiánském přístupu vs. častém přístupu na různých fórech. Moje otázka je velmi specifická pro laso – Jaké jsou rozdíly nebo výhody baysovského lasa oproti běžnému lasu ?

Zde jsou dva příklady implementace v balíčku:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Takže kdy mám použít jednu nebo jiné metody? Nebo jsou stejné?

Odpověď

Standardní laso používá regularizační pokutu L1 dosáhnout řídkosti při regresi. Všimněte si, že toto je také známé jako Basis Pursuit .

V Bayesovském rámci je volba regulárního nástroje analogická s volbou předchozího závaží. Pokud se použije Gaussianův prior, bude řešení Maximum a posteriori (MAP) stejné, jako kdyby byl použit trest L2. I když to není přímo ekvivalent, Laplaceův předchozí (který je ostře vyvrcholil kolem nuly, na rozdíl od Gaussian, který je hladký kolem nuly), produkuje stejný smršťovací efekt jako trest L1. Tento dokument popisuje Bayesovské laso. .

Ve skutečnosti, když umístíte Laplace před parametry, mělo by být řešení MAP identické (nejen podobné) regularizaci s pokutou L1 a před Laplaceem přinese stejný účinek smrštění jako pokuta L1. Avšak vzhledem k buď aproximacím v Bayesianově inferenční proceduře, nebo jiným numerickým problémům nemusí být řešení ve skutečnosti identická.

Ve většině případů budou výsledky obou metod velmi podobné. V závislosti na metodě optimalizace a na tom, zda se použijí aproximace, bude výpočet standardního lasa pravděpodobně efektivnější než u bayesovské verze. Bayesian automaticky vytváří intervalové odhady pro všechny parametry, včetně odchylek chyb, pokud jsou požadovány.

Komentáře

  • “ Je-li použit Gaussianský prior, bude řešení Maximální pravděpodobnost stejné …. „. Zvýrazněná fráze by měla číst “ Maximum A Posteriori (MAP) „, protože odhad maximální pravděpodobnosti bude ignorovat předchozí distribuci přes parametry, což k neregulovanému řešení, zatímco odhad MAP bere v úvahu předchozí.
  • Když umístíte Laplace před parametry, řešení MAP bude identické (nejen podobné) jako regularizace s pokutou L1 a Laplace prior způsobí shodný smršťovací efekt jako pokuta L1.
  • @mefathy ano ‚ máte pravdu v obou případech (můžete ‚ nevěřím, že jsem napsal ML místo MAP ….), i když samozřejmě v praxi YMMV. ‚ Aktualizoval jsem odpověď tak, aby obsahovala oba komentáře.

Odpověď

„Nejméně čtverce“ znamenají, že celkové řešení minimalizuje součet čtverců chyb provedených ve výsledcích každé jednotlivé rovnice. Nejdůležitější aplikací je přizpůsobení dat. Nejlepší přizpůsobení ve smyslu nejmenších čtverců minimalizuje součet čtverců zbytků, přičemž zbytkem je rozdíl mezi pozorovanou hodnotou a přizpůsobenou hodnotou poskytnutou modelem. Problémy s nejmenšími čtverci spadají do dvou kategorií: lineární nebo obyčejné nejmenší čtverce a ne lineární nejmenší čtverce, v závislosti na tom, zda jsou zbytky lineární ve všech neznámých.

Bayesovská lineární regrese je přístup k lineární regrese, při kterém se statistická analýza provádí v kontextu Bayesiánského závěru. Pokud má regresní model chyby, které mají normální rozdělení, a pokud se předpokládá určitá forma předchozího rozdělení, jsou k dispozici explicitní výsledky pro zadní rozdělení pravděpodobnosti parametrů modelu.

V některých kontextech regularizovaná verze řešení nejmenších čtverců může být vhodnější. Regulace Tikhonov (nebo hřebenová regrese) přidává omezení, že $ \ | \ beta \ | ^ 2 $, L2-norma vektoru parametrů, není větší než daná hodnota. V Bayesovském kontextu je to ekvivalentní umístění nulového průměru normálně distribuovaného před na vektor parametru.

Alternativní regularizovaná verze nejmenších čtverců je Lasso (operátor nejmenšího absolutního zmenšení a výběru), který používá omezení, že $ \ | \ beta \ | _1 $, L1-norma vektoru parametrů, není větší než zadaná hodnota . V Bayesovském kontextu je to ekvivalentní umístění Laplaceova nulového průměru před distribucí na parametr vektor.

Jedním z hlavních rozdílů mezi Lasso a hřebenovou regresí je, že v hřebenové regresi, jak se zvyšuje trest, se snižují všechny parametry, zatímco stále zůstávají nenulové, zatímco v Lasu, zvýšení trestu způsobí více a další parametry, které mají být vynulovány.

Tento článek porovnává běžné laso s Bayesovským lasem a hřebenovou regresí (viz obrázek 1 ) .

Odpověď

Cítím, že aktuální odpovědi na tuto otázku ve skutečnosti neodpovídají na otázky, které byly „Jaké jsou rozdíly nebo výhody baysianského (sic) lasa oproti běžnému lasu? “ a „jsou stejné?“

Nejprve nejsou stejné.

Klíčový rozdíl je: Bayesovské laso se pokouší vzorkovat z úplného zadního rozdělení parametrů, pod Laplaceovým před, zatímco laso se pokouší najít zadní režim (také pod Laplaceovým před). V praxi se úplná zadní distribuce z Bayesovského lasa obvykle shrnuje zadním průměrem, takže se to v praxi scvrkává takto:

Bayesovské laso se pokouší najít zadní průměr pod Laplaceovým před, zatímco laso se pokouší najít zadní režim pod Laplaceovým před

Výhodou zadního průměru oproti zadnímu režimu je, že zadní průměr způsobí lepší přesnost predikce (za předpokladu střední kvadratické ztráty), pokud Laplaceův předchozí je ve skutečnosti skutečným odrazem distribuce regresních koeficientů. Tato výhoda je však v praxi pochybná, protože v mnoha aplikacích Laplaceův předchozí není skutečným odrazem distribuce koeficientů (a to je obecně obtížné ověřit!)

Výhody zadního režimu zahrnují, že je výpočetně mnohem snazší najít (jedná se o konvexní optimalizační problém).

Můžete si všimnout, že jsem neodpověděl „kdy mám použít jednu nebo jiné metody“. Je to proto, že na tuto otázku je obecně těžké odpovědět. Moje odpověď by byla, že obecně existují lepší metody než kterákoli z nich. Úplná diskuse o tom by však vyžadovala delší příspěvek.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *