Für lasso . Ich weiß, dass in verschiedenen Foren viel über den Bayesschen Ansatz und den frequentistischen Ansatz diskutiert wurde. Meine Frage ist sehr spezifisch für Lasso – Was sind Unterschiede oder Vorteile von baysischem Lasso gegenüber normalem Lasso ?
Hier sind zwei Beispiele für die Implementierung im Paket:
# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y)
Wann sollte ich mich für die eine oder andere Methode entscheiden? Oder sind sie gleich?
Antwort
Das Standard-Lasso verwendet eine L1-Regularisierungsstrafe Sparsamkeit in der Regression zu erreichen. Beachten Sie, dass dies auch als Basis Pursuit bezeichnet wird.
Im Bayesschen Rahmen ist die Wahl des Regularisierers analog zur Wahl des Prior Over die Gewichte. Wenn ein Gaußscher Prior verwendet wird, ist die MAP-Lösung (Maximum a Posteriori) dieselbe, als ob eine L2-Strafe verwendet worden wäre. Obwohl dies nicht direkt äquivalent ist, erzeugt der Laplace-Prior (der im Gegensatz zum Gaußschen, der um Null herum glatt ist, einen scharfen Spitzenwert um Null aufweist) den gleichen Schrumpfeffekt wie die L1-Strafe. In diesem Dokument wird das Bayessche Lasso beschrieben.
Wenn Sie einen Laplace vor den Parametern platzieren, sollte die MAP-Lösung identisch sein (nicht nur ähnlich) wie bei der Regularisierung mit der L1-Strafe und dem Laplace-Prior wird ein identischer Schrumpfeffekt wie bei der L1-Strafe erzeugt. Aufgrund von Annäherungen im Bayesschen Inferenzverfahren oder anderen numerischen Problemen sind die Lösungen möglicherweise nicht identisch.
In den meisten Fällen sind die mit beiden Methoden erzielten Ergebnisse sehr ähnlich. Abhängig von der Optimierungsmethode und davon, ob Näherungen verwendet werden, ist das Standard-Lasso wahrscheinlich effizienter zu berechnen als die Bayessche Version. Der Bayesian erstellt automatisch Intervallschätzungen für alle Parameter, einschließlich der Fehlervarianz, falls diese erforderlich sind.
Kommentare
- “ Wenn ein Gaußscher Prior verwendet wird, ist die Maximum Likelihood -Lösung dieselbe …. „. Die hervorgehobene Phrase sollte “ Maximum A Posteriori (MAP) “ lauten, da die Schätzung der maximalen Wahrscheinlichkeit die vorherige Verteilung über die Parameter einfach ignoriert zu einer unregelmäßigen Lösung, während die MAP-Schätzung den Prior berücksichtigt.
- Wenn Sie einen Laplace vor den Parametern platzieren, ist die MAP-Lösung identisch (nicht nur ähnlich) mit der Regularisierung mit der L1-Strafe und dem Laplace prior erzeugt einen identischen Schrumpfeffekt wie die L1-Strafe.
- @mefathy ja, Sie ‚ haben in beiden Punkten Recht (können ‚ glaube nicht, dass ich ML anstelle von MAP geschrieben habe ….), obwohl natürlich in der Praxis YMMV. Ich ‚ habe die Antwort aktualisiert, um beide Kommentare aufzunehmen.
Antwort
„Kleinste Quadrate“ bedeutet, dass die Gesamtlösung die Summe der Quadrate der Fehler minimiert, die in den Ergebnissen jeder einzelnen Gleichung gemacht wurden. Die wichtigste Anwendung ist die Datenanpassung. Die beste Anpassung im Sinne der kleinsten Quadrate minimiert die Summe der quadratischen Residuen, wobei ein Residuum die Differenz zwischen einem beobachteten Wert und dem von einem Modell bereitgestellten angepassten Wert ist. Probleme mit den kleinsten Quadraten lassen sich in zwei Kategorien einteilen: lineare oder gewöhnliche kleinste Quadrate und nicht lineare kleinste Quadrate, abhängig davon, ob die Residuen in allen Unbekannten linear sind oder nicht.
Bayesianische lineare Regression ist ein Ansatz zur linearen Regression, bei dem die statistische Analyse im Kontext durchgeführt wird der Bayesschen Folgerung. Wenn das Regressionsmodell Fehler aufweist, die eine Normalverteilung aufweisen, und wenn eine bestimmte Form der vorherigen Verteilung angenommen wird, sind explizite Ergebnisse für die posterioren Wahrscheinlichkeitsverteilungen der Modellparameter verfügbar.
In einigen Kontexten a Eine regulierte Version der Lösung der kleinsten Quadrate kann vorzuziehen sein. Die Tikhonov-Regularisierung (oder Ridge-Regression) fügt eine Einschränkung hinzu, dass $ \ | \ beta \ | ^ 2 $, die L2-Norm des Parametervektors, nicht größer als ein gegebener Wert ist. In einem Bayesschen Kontext entspricht dies der Platzierung eines normalverteilten Nullmittelwerts vor dem Parametervektor.
Eine alternative regulierte Version der kleinsten Quadrate ist Lasso (Operator für kleinste absolute Schrumpfung und Auswahl), bei dem der verwendet wird Einschränkung, dass $ \ | \ beta \ | _1 $, die L1-Norm des Parametervektors , nicht größer als ein gegebener Wert ist . In einem Bayesschen Kontext entspricht dies dem Platzieren einer vorherigen Laplace-Verteilung mit dem Mittelwert Null auf dem Parameter Vektor.
Einer der Hauptunterschiede zwischen Lasso und Gratregression besteht darin, dass bei der Gratregression mit zunehmender Strafe alle Parameter reduziert werden, während sie immer noch ungleich Null bleiben, während bei Lasso eine Erhöhung der Strafe mehr bewirkt und weitere Parameter, die auf Null gesetzt werden sollen.
In diesem Artikel wird das reguläre Lasso mit der Bayesschen Lasso- und Ridge-Regression verglichen (siehe Abbildung 1 ). .
Antwort
Ich bin der Meinung, dass die aktuellen Antworten auf diese Frage die Fragen „Was sind Unterschiede oder Vorteile?“ nicht wirklich beantworten von baysian (sic) lasso gegen reguläres lasso? “ und „sind sie gleich?“
Erstens sind sie nicht gleich.
Der Hauptunterschied ist: Das Bayessche Lasso versucht, aus der vollständigen posterioren Verteilung der Parameter eine Stichprobe zu ziehen. unter einem Laplace-Prior, während Lasso versucht, den posterioren Modus zu finden (auch unter einem Laplace-Prior). In der Praxis wird die vollständige posteriore Verteilung des Bayesschen Lassos normalerweise durch den posterioren Mittelwert zusammengefasst. In der Praxis läuft dies darauf hinaus:
Das Bayessche Lasso versucht, den posterioren Mittelwert unter einem Laplace-Prior zu finden Das Lasso versucht, den posterioren Modus unter einem Laplace-Prior
zu finden. Der Vorteil des posterioren Mittelwerts gegenüber dem posterioren Modus besteht darin, dass der posteriore Mittelwert eine bessere Vorhersagegenauigkeit erzeugt (unter der Annahme eines mittleren quadratischen Verlusts), wenn Der Laplace-Prior spiegelt tatsächlich die Verteilung der Regressionskoeffizienten wider. Dieser Vorteil ist jedoch in der Praxis zweifelhaft, da in vielen Anwendungen der Laplace-Prior die Verteilung der Koeffizienten nicht wirklich widerspiegelt (und im Allgemeinen ist dies schwer zu überprüfen!).
Die Vorteile des posterioren Modus Dazu gehört, dass es rechnerisch viel einfacher zu finden ist (es ist ein konvexes Optimierungsproblem).
Möglicherweise stellen Sie fest, dass ich nicht geantwortet habe: „Wann sollte ich mich für die eine oder andere Methode entscheiden?“. Das liegt daran, dass diese Frage im Allgemeinen schwer zu beantworten ist. Meine Antwort wäre, dass es im Allgemeinen bessere Methoden gibt als beide. Eine vollständige Diskussion darüber würde jedoch einen längeren Beitrag erfordern.