Nie mam pojęcia, czy te dwa pojęcia są tą samą koncepcją. Jeśli są różne, jaka jest różnica?
Dzięki!
Odpowiedź
Pozostałe odpowiedzi są dobre. Jednak, aby wyjaśnić intuicję, a także podać dodatkowe szczegóły:
- W regresji logistycznej maksymalizujesz funkcję prawdopodobieństwa $ p (y | \ beta_ {0}, \ beta_ {1}, x) $ (znajdź MLE). Oznacza to, że znajdujesz wagi $ \ beta_ {0}, \ beta_ {1} $, które maksymalizują prawdopodobieństwo zaobserwowanych danych. Nie ma rozwiązania w postaci zamkniętej dla MLE, więc musisz użyć metod iteracyjnych. Daje to jednopunktowe oszacowanie naszych wag.
- W bayesowskiej regresji logistycznej zaczynasz od wstępnego przekonania o rozkładzie $ p (\ beta_ {0}, \ beta_ {1}) $. Następnie $ p (\ beta_ {0}, \ beta_ {1} | x, y) \ propto p (y | \ beta_ {0}, \ beta_ {1}, x) p (\ beta_ {0}, \ beta_ {1}) $. Oznacza to, że późniejsze, które jest naszym zaktualizowanym przekonaniem o wagach podanych dowodów, jest proporcjonalne do naszego wcześniejszego (początkowego przekonania) pomnożonego przez prawdopodobieństwo. Nie możemy oszacować późniejszej postaci zamkniętej, ale możemy ją przybliżyć za pomocą próbkowania lub metod wariacyjnych. To daje nam rozkład wag. Na przykład, jeśli użyjemy zwykłego przybliżenia zarówno dla $ \ beta_ {0} $, jak i $ \ beta_ {1} $ używając metod wariacyjnych, wtedy otrzymamy średnią i wariancję dla $ \ beta_ {0} $ i jedną dla $ \ beta_ {1} $.
Aby uzyskać więcej szczegółów na temat obu technik, te notatki skrybów z wykładu są doskonałe http://web.cse.ohio-state.edu/~kulis/teaching/788_sp12/scribe_notes/lecture6.pdf .
Komentarze
- Oszacowanie maksymalnego prawdopodobieństwa nie zapewnia punktowego oszacowania parametrów, ale można również i powinno oszacować niepewność, używając przybliżenie normalne uzasadnione przez właściwości dużej próby estymatorów największej wiarygodności. Regresje logistyczne bayesowskie rozpoczynają się od wcześniejszych informacji , a nie przekonania . Jeśli nie masz żadnych wcześniejszych informacji, powinieneś użyć wcześniejszego nieinformacyjnego. Gelman i in. zalecam domyślną regresję logistyczną Cauchyego priors ze skalą = 0,1 dla wyrazów przecięcia i skalą = 0,4 dla wyrazów nachylenia.
- Dziękuję. Czy możesz wyjaśnić znaczenie wcześniejszych informacji?
- To ' jest głównie kwestią semantyki. Wcześniejsze przekonanie i wcześniejsze informacje to dwa różne wyrażenia w języku angielskim odnoszące się do tego samego pojęcia: rozkład prawdopodobieństwa parametrów, które zabierasz ze sobą do modelu. Podkreślam termin informacja nad wiarą, ponieważ naprawdę powinieneś mieć dla niego jakieś uzasadnienie (istniejąca literatura, ekspertyza, badanie pilotażowe, a nawet empiryczne oszacowanie) inne niż twoja wiara.
- Jeśli link nie ' t work: web.archive.org/web/20150409022746/http://…
Odpowiedź
Załóżmy, że masz zestaw obserwacji binarnych $ Y_i $ za $ i = 1, \ ldots, n $ oraz, dla każdej obserwacji, powiązaną zmienną objaśniającą $ X_i $. Regresja logistyczna zakłada $$ Y_i \ stackrel {ind} {\ sim} Ber (\ pi_i), \ quad \ ln \ left (\ frac {\ pi_i} {1- \ pi_i} \ right) = \ beta_0 + \ beta_1 X_i. $$ Jeśli uzyskujesz szacunki punktowe parametrów przy użyciu największego prawdopodobieństwa, po prostu zastosuj powyższe założenia. Ale jeśli uzyskujesz oszacowania parametrów za pomocą podejścia bayesowskiego, musisz zdefiniować poprzedni dla $ \ beta_0 $ i $ \ beta_1 $, nazwij go $ p (\ beta_0, \ beta_1) $. Ta wcześniejsza, wraz z powyższymi założeniami regresji logistycznej, jest logistyczną regresją bayesowską.
Odpowiedź
Nie twierdzę, że jestem ekspertem w dziedzinie regresji logistycznej. Ale wyobrażam sobie, że wygląda to mniej więcej tak – przypuśćmy $ Y $ to binarna zmienna losowa przyjmująca wartość $ 0 $ lub $ 1 $. Zdefiniuj $$ \ pi = \ mathbb {P} \ left (Y = 0∣X \ right) \ text {,} $$, gdzie $ X $ jest zmienną niezależną (dla uproszczenia zakładam, że tylko jeden predyktor). Wtedy regresja logistyczna przyjmuje postać $$ \ ln \ left (\ dfrac {\ pi} {1- \ pi} \ right) = \ beta_0 + \ beta_1 X + \ epsilon $$ gdzie $ \ epsilon $ jest niezależne od $ X $ i ma średnią 0 $, a $ \ beta_i $ są szacowane przy użyciu maksymalnego prawdopodobieństwa. Wyobrażam sobie, że w przypadku bayesowskiej regresji logistycznej używasz czegoś takiego jak $$ \ pi = \ dfrac {\ mathbb {P} \ left (X = x \ mid Y = 0 \ right) \ mathbb {P} \ left (Y = 0 \ po prawej)} {\ Displaystyle \ sum \ limity_ {j} \ mathbb {P} \ lewo (X = x \ mid Y = j \ po prawej) \ mathbb {P} \ lewo (Y = j \ prawej)} $$ i przypisz coś do dystrybucji $ X \ mid Y = j $ i wcześniejszej dystrybucji za $ Y $. To, z mojego ograniczonego zrozumienia, wydaje mi się podstawą Linear Discriminant Analysis.