Bayesiaanse lasso versus gewone lasso

Er zijn verschillende implementatiesoftware beschikbaar voor lasso . Ik weet dat er veel wordt besproken over de bayesiaanse benadering versus de frequentistische benadering in verschillende forums. Mijn vraag is heel specifiek voor lasso – Wat zijn de verschillen of voordelen van een baysiaanse lasso versus een gewone lasso ?

Hier zijn twee voorbeelden van implementatie in het pakket:

# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 

Dus wanneer moet ik gaan voor een of andere methoden? Of zijn ze hetzelfde?

Antwoord

De standaard lasso gebruikt een L1 regularisatie penalty om spaarzaamheid bij regressie te bereiken. Merk op dat dit ook bekend staat als Basis Pursuit .

In het Bayesiaanse raamwerk is de keuze van regulariser analoog aan de keuze van eerdere de gewichten. Als een Gauss-prior wordt gebruikt, dan is de Maximum a Posteriori (MAP) -oplossing hetzelfde als wanneer een L2-penalty werd gebruikt. Hoewel niet direct equivalent, produceert de Laplace-prior (die een scherpe piek heeft rond nul, in tegenstelling tot de Gauss die glad is rond nul), hetzelfde krimpeffect als de L1-straf. Dit artikel beschrijft de Bayesiaanse lasso. .

In feite, wanneer u een Laplace voor de parameters plaatst, zou de MAP-oplossing identiek moeten zijn (niet alleen vergelijkbaar) met regularisatie met de L1-straf en de Laplace prior zal een identiek krimpeffect produceren als de L1-straf. Echter, als gevolg van benaderingen in de Bayesiaanse inferentieprocedure, of andere numerieke problemen, is het mogelijk dat de oplossingen niet echt identiek zijn.

In de meeste gevallen zullen de resultaten van beide methoden sterk op elkaar lijken. Afhankelijk van de optimalisatiemethode en of er benaderingen worden gebruikt, zal de standaard lasso waarschijnlijk efficiënter te berekenen zijn dan de Bayesiaanse versie. De Bayesian produceert automatisch intervalschattingen voor alle parameters, inclusief de foutvariantie, als deze vereist zijn.

Opmerkingen

  • ” Als een Gauss-prior wordt gebruikt, dan is de Maximum Likelihood -oplossing dezelfde … “. De gemarkeerde zin moet ” Maximum A Posteriori (MAP) ” lezen omdat de schatting van de maximale waarschijnlijkheid de eerdere verdeling over de parameters negeert, waardoor naar een niet-gereguleerde oplossing, terwijl MAP-schatting rekening houdt met het voorafgaande.
  • Wanneer u een Laplace voorafgaand aan de parameters plaatst, zal de MAP-oplossing identiek zijn (niet alleen vergelijkbaar) met regularisatie met de L1-straf en de Laplace prior zal een identiek inkrimpingseffect hebben als de L1-straf.
  • @mefathy ja je ‘ hebt gelijk op beide punten (kan ‘

heb het antwoord bijgewerkt om beide opmerkingen op te nemen.

Antwoord

“Kleinste kwadraten” betekent dat de totale oplossing de som van de kwadraten van de fouten in de resultaten van elke afzonderlijke vergelijking minimaliseert. De belangrijkste toepassing is het aanpassen van gegevens. De best passende waarde in de betekenis van de kleinste kwadraten minimaliseert de som van de kwadraten, een residu is het verschil tussen een geobserveerde waarde en de gepaste waarde die door een model wordt geleverd. lineaire kleinste kwadraten, afhankelijk van het feit of de residuen lineair zijn in alle onbekenden.

Bayesiaanse lineaire regressie is een benadering van lineaire regressie waarbij de statistische analyse wordt uitgevoerd binnen de context van Bayesiaanse gevolgtrekking. Als het regressiemodel fouten heeft die een normale verdeling hebben, en als een bepaalde vorm van eerdere verdeling wordt aangenomen, zijn expliciete resultaten beschikbaar voor de posterieure kansverdelingen van de parameters van het model.

In sommige contexten een geregulariseerde versie van de kleinste-kwadraten-oplossing kan de voorkeur hebben.Tichonov-regularisatie (of nokregressie) voegt een beperking toe dat $ \ | \ beta \ | ^ 2 $, de L2-norm van de parametervector, niet groter is dan een bepaalde waarde. In een Bayesiaanse context komt dit overeen met het plaatsen van een nul-gemiddelde normaal verdeeld voor de parametervector.

Een alternatieve geregulariseerde versie van de kleinste kwadraten is Lasso (de operator voor de kleinste absolute krimp en selectie), die de beperking dat $ \ | \ beta \ | _1 $, de L1-norm van de parametervector, niet groter is dan een gegeven waarde . In een Bayesiaanse context is dit gelijk aan het plaatsen van een nul-gemiddelde Laplace-voorafgaande distributie op de parameter vector.

Een van de belangrijkste verschillen tussen Lasso en nokregressie is dat bij nokregressie, naarmate de straf wordt verhoogd, alle parameters worden verlaagd terwijl ze nog steeds niet nul blijven, terwijl in Lasso het verhogen van de straf meer en meer van de parameters die naar nul moeten worden gedreven.

Dit artikel vergelijkt gewone lasso met Bayesiaanse lasso en nokregressie (zie afbeelding 1 ) .

Antwoord

Ik denk dat de huidige antwoorden op deze vraag niet echt de vragen beantwoorden, namelijk “Wat zijn verschillen of voordelen van baysian (sic) lasso versus gewone lasso? ” en “zijn ze hetzelfde?”

Ten eerste zijn ze niet hetzelfde.

Het belangrijkste verschil is: de Bayesiaanse lasso probeert monsters te nemen uit de volledige posterieure distributie van de parameters, onder een Laplace prior, terwijl de lasso de posterieure modus probeert te vinden (ook onder een Laplace prior). In de praktijk wordt de volledige posterieure verdeling van de Bayesiaanse lasso meestal samengevat met het posterieure gemiddelde, dus in de praktijk komt dit hierop neer:

De Bayesiaanse lasso probeert het posterieure gemiddelde te vinden onder een Laplace prior terwijl de lasso probeert de posterieure modus te vinden onder een Laplace prior

Het voordeel van de posterieure gemiddelde versus de posterieure modus is dat het posterieure gemiddelde een betere voorspellingsnauwkeurigheid zal produceren (uitgaande van gemiddeld kwadraatverlies) als de Laplace prior is eigenlijk een waarheidsgetrouwe weergave van de verdeling van de regressiecoëfficiënten. Dit voordeel is in de praktijk echter twijfelachtig, aangezien in veel toepassingen de Laplace prior geen echte weerspiegeling is van de verdeling van de coëfficiënten (en in het algemeen is dit moeilijk te controleren!)

De voordelen van de posterieure modus omvatten dat het rekenkundig veel gemakkelijker te vinden is (het is een convex optimalisatieprobleem).

Het valt je misschien op dat ik niet heb geantwoord “wanneer moet ik een of andere methoden gebruiken”. Dat komt omdat dit in het algemeen een moeilijke vraag is om te beantwoorden. Mijn antwoord zou zijn dat er over het algemeen betere methoden zijn dan beide. Maar een volledige bespreking hiervan zou een langere post vereisen.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *