Bayesilainen lasso vs. tavallinen lasso

Erilaisia toteutusohjelmistoja on saatavana lassoon . Tiedän paljon keskustelua bayesilaisesta lähestymistavasta vs. usein esiintyvästä lähestymistavasta eri foorumeilla. Kysymykseni on hyvin erityinen lasolle – Mitä eroja tai etuja baysian lassoon verrattuna tavalliseen lasoon ?

Tässä on kaksi esimerkkiä paketin toteutuksesta:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Joten milloin minun pitäisi käyttää yhtä tai muuta menetelmää? Tai ovatko he samat?

vastaus

Vakiolaso käyttää L1-laillistussakkoa saavuttaa harva regressio. Huomaa, että tämä tunnetaan myös nimellä Basis Pursuit .

Bayesin viitekehyksessä laillistajan valinta on analoginen edellisen valinnan kanssa painot. Jos käytetään Gaussin prioria, maksimi Posteriori (MAP) -ratkaisu on sama kuin jos L2-rangaistusta käytettäisiin. Vaikka Laplace-priori ei ole suoraan vastaava, se (joka on jyrkästi huipussaan nollan ympäri, toisin kuin nollan tasainen Gaussian huippu), tuottaa saman kutistumisvaikutuksen kuin L1-rangaistus. Tässä artikkelissa kuvataan Bayesian lassoa. .

Itse asiassa, kun asetat Laplace-etusivun parametrien yli, MAP-ratkaisun on oltava identtinen (ei vain samanlainen) kuin laillistaminen L1-rangaistuksella ja Laplace-aikaisemmalla tuottaa samanlaisen kutistumisvaikutuksen kuin L1-rangaistus. Joko Bayesin päättelymenetelmän likiarvot tai muut numeeriset kysymykset eivät kuitenkaan välttämättä ole identtisiä ratkaisuja.

Useimmissa tapauksissa molempien menetelmien tuottamat tulokset ovat hyvin samanlaisia. Optimointimenetelmästä ja siitä, käytetäänkö likiarvoja, vakiolaso on todennäköisesti tehokkaampi laskea kuin Bayesin versio. Bayesian tuottaa intervalliarvioiden automaattisesti kaikille parametreille, mukaan lukien virhevarianssi, jos niitä vaaditaan.

Kommentit

  • ” Jos käytetään Gaussin prioria, Suurin todennäköisyys -ratkaisu on sama …. ”. Korostetun lauseen tulee lukea ” Enimmäispituus A (pos) (div) = div id = ”d3c87bb9c8”>

, koska Suurimman todennäköisyyden estimointi vain jättää huomiotta edellisen jakauman parametrien yli, mikä johtaa epäsäännölliseen ratkaisuun, kun taas MAP-estimointi ottaa huomioon etukäteen.

  • Kun asetat Laplace-parametrin parametrien yläpuolelle, MAP-ratkaisu on identtinen (ei pelkästään samanlainen) kuin L1-rangaistuksen ja Laplace-tasoituksen kanssa. prior tuottaa samanlaisen kutistumisvaikutuksen kuin L1-rangaistus.
  • @mefathy yes you ’ olet oikeassa molemmissa laskelmissa (voi ’ usko, että kirjoitin ML: n MAP: n sijaan ….), vaikka tietysti käytännössä YMMV. Olen ’ päivittänyt vastauksen sisällyttämään molemmat kommentit.
  • Vastaus

    ”Vähiten neliöt” tarkoittaa, että kokonaisratkaisu minimoi jokaisen yhtälön tuloksissa tehtyjen virheiden neliösumman. Tärkein sovellus on tietojen sovittamisessa. Paras sovitus pienimmän neliösumman merkityksessä minimoi jäännösten neliösumman, jäännös on havaitun arvon ja mallin tarjoaman sovitetun arvon välinen ero. Vähiten neliöongelmat jakautuvat kahteen luokkaan: lineaariset tai tavalliset pienimmät neliöt ja ei-neliöt lineaariset pienimmät neliöt riippuen siitä, ovatko jäännökset lineaarisia kaikissa tuntemattomissa.

    Bayesin lineaarinen regressio on lähestymistapa lineaariseen regressioon, jossa tilastollinen analyysi tehdään kontekstissa Bayesin päättelystä. Kun regressiomallissa on virheitä, joilla on normaali jakauma, ja jos oletetaan tietynlainen edellisen jakauman muoto, mallin parametrien takaosien todennäköisyysjakaumille on saatavilla selkeät tulokset.

    Joissakin yhteyksissä a Pienimmän neliösumman ratkaisun normalisoitu versio voi olla edullinen. Bayesin kontekstissa tämä vastaa nollakeskiarvon normaalijakauman asettamista ennen parametrivektoria.

    Vaihtoehtoinen legalisoitu versio pienimmistä neliöistä on Lasso (pienin absoluuttinen kutistuminen ja valintaoperaattori), joka käyttää rajoitus, että $ \ | \ beta \ | _1 $, parametrivektorin L1-normi ei ole suurempi kuin annettu arvo bayesilaisessa kontekstissa tämä vastaa nollakeskimääräisen Laplace-etujakauman sijoittamista parametriin vektori.

    Yksi tärkeimmistä eroista Lasson ja harjanteen regressiossa on, että harjanteen regressiossa, kun rangaistusta korotetaan, kaikkia parametreja pienennetään samalla, kun ne pysyvät edelleen nollasta poikkeavina, kun taas Lassossa rangaistuksen korottaminen aiheuttaa enemmän ja useampia parametreja, jotka on ajettava nollaan.

    Tässä artikkelissa verrataan tavallista lassoa Bayesin lasoon ja harjanteen regressioon (katso kuva 1 ) .

    vastaus

    Mielestäni tämänhetkiset vastaukset eivät todellakaan vastaa kysymyksiin, jotka olivat ”Mitä eroja tai etuja on” baysian (sic) lasso vs tavallinen lasso? ” ja ”ovatko ne samat?”

    Ensinnäkin, ne eivät ole samat.

    Tärkein ero on: Bayesilainen lasso yrittää ottaa näytteen parametrien täydellisestä takajakaumasta, Laplace-priorin alla, kun taas lasso yrittää löytää takamoodin (myös Laplace-priorin alla). Käytännössä koko posteriorinen jakauma Bayesin lassoista on yleensä yhteenveto taka-keskiarvolla, joten käytännössä tämä johtuu tästä:

    Bayesin lasso yrittää löytää takimmaisen keskiarvon Laplace-etusijalla, kun taas lasso yrittää löytää takamoodin Laplace-priorin alla.

    Takakeskiarvon ja takamoodin etuna on, että takakeskiarvo tuottaa paremman ennustustarkkuuden (olettaen keskimääräisen neliösumman) Laplace-priori on itse asiassa todellinen heijastus regressiokertoimien jakaumasta. Tämä etu on kuitenkin käytännössä epäilyttävä, koska monissa sovelluksissa Laplace-priori ei ole todellinen heijastus kertoimien jakaumasta (ja yleensä tätä on vaikea tarkistaa!)

    Takamoodin edut mukaan se on laskennallisesti paljon helpompi löytää (se on kupera optimointiongelma).

    Saatat huomata, että en vastannut ”milloin minun pitäisi valita yksi tai toinen menetelmä”. Tämä johtuu siitä, että tähän on vaikea vastata yleensä. Vastaukseni olisi, että yleensä on parempia menetelmiä kuin kumpikaan näistä. Mutta tämän täysimääräinen keskustelu edellyttäisi pidempää virkaa.

    Vastaa

    Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *