Dostępne są różne programy wdrożeniowe dla lasso . Wiem dużo, dyskutowano o podejściu bayesowskim i częstym na różnych forach. Moje pytanie jest bardzo specyficzne dla lassa – Jakie są różnice lub zalety lasso baysian w porównaniu ze zwykłym lasso ?
Oto dwa przykłady implementacji w pakiecie:
# just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y)
Kiedy więc powinienem wybrać jedną lub inną metodę? Czy są takie same?
Odpowiedź
Standardowe lasso używa kary uregulowania L1 osiągnąć rzadkość w regresji. Zwróć uwagę, że jest to również znane jako Podstawowy pościg .
W strukturze bayesowskiej wybór regulatora jest analogiczny do wyboru przed ciężary. Jeśli zostanie zastosowany wcześniejszy Gaussian, wówczas rozwiązanie Maximum a Posteriori (MAP) będzie takie samo, jak w przypadku zastosowania kary L2. Chociaż nie jest to bezpośrednio równoważne, poprzedni Laplace (który ma ostry szczyt wokół zera, w przeciwieństwie do Gaussa, który jest gładki wokół zera), daje taki sam efekt skurczu jak kara L1. Ten artykuł opisuje Bayesian Lasso. .
W rzeczywistości, gdy umieścisz Laplacea przed parametrami, rozwiązanie MAP powinno być identyczne (nie tylko podobne) do regularyzacji z karą L1 i wcześniejszą Laplacea da taki sam efekt skurczu jak kara L1. Jednak ze względu na przybliżenia w procedurze wnioskowania bayesowskiego lub inne problemy numeryczne, rozwiązania mogą w rzeczywistości nie być identyczne.
W większości przypadków wyniki uzyskane za pomocą obu metod będą bardzo podobne. W zależności od metody optymalizacji i tego, czy używane są przybliżenia, standardowe lasso będzie prawdopodobnie bardziej wydajne do obliczeń niż wersja bayesowska. Bayesian automatycznie tworzy oszacowania przedziałów czasu dla wszystkich parametrów, w tym wariancji błędu, jeśli są one wymagane.
Komentarze
- ” Jeśli użyje się wcześniejszego Gaussa, wówczas rozwiązanie Maksymalne prawdopodobieństwo będzie takie samo …. „. Podświetlona fraza powinna brzmieć ” Maximum A Posteriori (MAP) „, ponieważ oszacowanie maksymalnego prawdopodobieństwa po prostu zignoruje wcześniejszy rozkład parametrów, prowadząc do nieregularnego rozwiązania, podczas gdy estymacja MAP bierze pod uwagę wcześniejsze.
- Kiedy umieścisz Laplace przed parametrami, rozwiązanie MAP będzie identyczne (nie tylko podobne) do uregulowania z karą L1 i Laplace wcześniejszy spowoduje efekt kurczenia się identyczny z karą L1.
- @mefathy tak, ' w obu przypadkach (może ' chyba napisałem ML zamiast MAP ….), chociaż oczywiście w praktyce YMMV. ' zaktualizowałem odpowiedź, aby uwzględnić oba komentarze.
Odpowiedź
„Najmniejsze kwadraty” oznacza, że ogólne rozwiązanie minimalizuje sumę kwadratów błędów popełnionych w wynikach każdego równania. Najważniejszym zastosowaniem jest dopasowywanie danych. Najlepsze dopasowanie w sensie najmniejszych kwadratów minimalizuje sumę kwadratów reszt, przy czym reszta jest różnicą między wartością obserwowaną a dopasowaną wartością dostarczoną przez model. Problemy najmniejszych kwadratów dzielą się na dwie kategorie: liniowe lub zwykłe najmniejszych kwadratów i nie liniowe najmniejsze kwadraty, w zależności od tego, czy reszty są liniowe we wszystkich niewiadomych.
Bayesowska regresja liniowa to podejście do regresji liniowej, w którym analiza statystyczna jest przeprowadzana w kontekście wnioskowania bayesowskiego. Gdy model regresji zawiera błędy, które mają rozkład normalny i jeśli założono określoną formę wcześniejszego rozkładu, dostępne są jawne wyniki dla późniejszych rozkładów prawdopodobieństwa parametrów modelu.
W niektórych kontekstach a Może być lepsza wersja regularyzowana rozwiązania najmniejszych kwadratów Regularyzacja Tichonowa (lub regresja grzbietowa) dodaje ograniczenie, że $ \ | \ beta \ | ^ 2 $, norma L2 wektora parametrów, nie jest większa niż podana wartość. W kontekście bayesowskim jest to równoważne umieszczeniu zerowej średniej rozkładu normalnego przed wektorem parametrów.
Alternatywną regularyzowaną wersją najmniejszych kwadratów jest Lasso (operator najmniejszego bezwzględnego skurczu i selekcji), który używa ograniczenie, że $ \ | \ beta \ | _1 $, norma L1 wektora parametrów, nie jest większa niż podana wartość . W kontekście bayesowskim jest to równoważne umieszczeniu na parametrze wcześniejszego rozkładu Laplacea o zerowej średniej wektor.
Jedną z głównych różnic między Lasso a regresją grzbietów jest to, że w regresji grzbietu, gdy kara jest zwiększona, wszystkie parametry są zmniejszane, pozostając nadal niezerowe, podczas gdy w Lasso zwiększenie kary spowoduje więcej i więcej parametrów, które mają być doprowadzone do zera.
W tym artykule porównano zwykłe lasso z lasso bayesowskim i regresją grzbietową (patrz rysunek 1 ) .
Odpowiedź
Wydaje mi się, że obecne odpowiedzi na to pytanie tak naprawdę nie odpowiadają na pytania „Jakie są różnice lub zalety lasso baysian (sic) vs zwykłe lasso? ” i „czy są takie same?”
Po pierwsze, nie są takie same.
Kluczowa różnica polega na tym, że lasso bayesowskie próbuje próbkować z pełnego późniejszego rozkładu parametrów, pod Laplace Prior, podczas gdy lasso próbuje znaleźć tryb tylny (także pod Laplace Prior). W praktyce pełny rozkład tylny z lassa bayesowskiego jest zwykle podsumowywany przez średnią tylną, więc w praktyce sprowadza się to do tego:
Lasso bayesowskie próbuje znaleźć tylną średnią pod Laplace przed lasso próbuje znaleźć późniejszy tryb pod Laplacea przed
Zaletą późniejszej średniej w stosunku do późniejszej postaci jest to, że późniejsza średnia da lepszą dokładność przewidywania (zakładając średnią kwadratową stratę), jeśli Poprzednia Laplacea jest w rzeczywistości prawdziwym odzwierciedleniem rozkładu współczynników regresji. Jednak w praktyce ta zaleta jest wątpliwa, ponieważ w wielu zastosowaniach poprzednik Laplacea nie odzwierciedla prawdziwego rozkładu współczynników (i ogólnie jest to trudne do sprawdzenia!)
Zalety trybu późniejszego obejmują fakt, że jest on znacznie łatwiejszy do znalezienia obliczeniowo (jest to problem optymalizacji wypukłej).
Możesz zauważyć, że nie odpowiedziałem „kiedy powinienem wybrać jedną lub inną metodę”. Dzieje się tak, ponieważ ogólnie jest to trudne pytanie. Moja odpowiedź byłaby taka, że ogólnie istnieją lepsze metody niż którakolwiek z tych. Ale pełna dyskusja na ten temat wymagałaby dłuższego postu.