Jeg var litt forvirret om disse to er det samme konseptet. Hvis de er forskjellige, hva er forskjellen?
Takk!
Svar
De andre svarene er gode. For å avklare intuisjonen samt gi noen ytterligere detaljer:
- I logistisk regresjon maksimerer du sannsynlighetsfunksjonen $ p (y | \ beta_ {0}, \ beta_ {1}, x) $ (finn MLE). Det vil si at du finner vektene $ \ beta_ {0}, \ beta_ {1} $ som maksimerer hvor sannsynlig dine observerte data er. Det er ingen lukket formløsning på MLE, så du må bruke iterative metoder. Dette gir deg et enkelt estimat av vektene våre.
- I bayesisk logistisk regresjon begynner du med en innledende tro på fordelingen av $ p (\ beta_ {0}, \ beta_ {1}) $. Deretter $ p (\ beta_ {0}, \ beta_ {1} | x, y) \ propto p (y | \ beta_ {0}, \ beta_ {1}, x) p (\ beta_ {0}, \ beta_ {1}) $. Det vil si at den bakre, som er vår oppdaterte tro på vektene som er gitt bevis, er proporsjonal med vår tidligere (første tro) sannsynlighet. Vi kan ikke evaluere den lukkede formen bak, men kan tilnærme den ved prøvetaking eller variasjonsmetoder. Dette gir oss en fordeling over vektene. For eksempel hvis vi bruker en normal tilnærming for både $ \ beta_ {0} $ og $ \ beta_ {1} $ ved hjelp av variasjonsmetoder, så får vi et gjennomsnitt og varians for $ \ beta_ {0} $, og en for $ \ beta_ {1} $ også.
For ytterligere detaljer om begge teknikkene er disse skriftnotatene til et foredrag utmerket http://web.cse.ohio-state.edu/~kulis/teaching/788_sp12/scribe_notes/lecture6.pdf .
Kommentarer
- Maksimal sannsynlighetsestimering gir et poengestimat av parametrene, men man kan også og bør gi et estimat for usikkerhet ved å bruke normal tilnærming begrunnet med de store prøveegenskapene til estimatorer for maksimal sannsynlighet. Bayesiske logistikkregresjoner starter med tidligere informasjon ikke tro. Hvis du ikke har noen tidligere informasjon, bør du bruke en ikke-informativ prior. Gelman et al. anbefaler standard logistisk regresjon Cauchy priors med skala = 0.1 for avskjæringsuttrykk og skala = 0.4 for skråningsbetingelser.
- Takk. Kan du avklare betydningen av tidligere informasjon?
- Det ' handler hovedsakelig om semantikk. Tidligere tro og tidligere informasjon er to forskjellige engelskspråklige setninger for samme konsept: sannsynlighetsfordelingen av parametrene du tar med deg inn i modellen. Jeg legger vekt på begrepet informasjon over tro fordi du virkelig burde ha noen begrunnelse for det (eksisterende litteratur, ekspertuttalelse, en pilotstudie eller til og med et empirisk estimat) annet enn din egen tro.
- Hvis lenken ikke ' t arbeid: web.archive.org/web/20150409022746/http://…
Svar
Anta at du har et sett med binære observasjoner $ Y_i $ for $ i = 1, \ ldots, n $ og for hver observasjon en tilhørende forklaringsvariabel $ X_i $. Logistisk regresjon forutsetter $$ Y_i \ stackrel {ind} {\ sim} Ber (\ pi_i), \ quad \ ln \ left (\ frac {\ pi_i} {1- \ pi_i} \ right) = \ beta_0 + \ beta_1 X_i. $$ Hvis du får poengestimater av parametrene via maksimal sannsynlighet, så bruker du bare forutsetningene ovenfor. Men hvis du får estimater av parametrene ved hjelp av en Bayesian-tilnærming, må du definere en prior for $ \ beta_0 $ og $ \ beta_1 $, kall det $ p (\ beta_0, \ beta_1) $. Dette tidligere sammen med de logistiske regresjonsantagelsene ovenfor er Bayesisk logistisk regresjon.
Svar
Jeg hevder ikke å være ekspert på logistisk regresjon. Men jeg forestiller meg at det går omtrent som dette – antar $ Y $ er en binær tilfeldig variabel som tar enten verdien $ 0 $ eller $ 1 $. Definer $$ \ pi = \ mathbb {P} \ left (Y = 0∣X \ right) \ text {,} $$ hvor $ X $ er den uavhengige variabelen (jeg antar bare en prediktor for enkelhets skyld). Deretter antar logistisk regresjon formen $$ \ ln \ left (\ dfrac {\ pi} {1- \ pi} \ right) = \ beta_0 + \ beta_1 X + \ epsilon $$ der $ \ epsilon $ er uavhengig av $ X $ og har gjennomsnittlig $ 0 $, og $ \ beta_i $ er estimert med maksimal sannsynlighet. Med Bayesisk logistisk regresjon kan jeg forestille meg at du bruker noe som $$ \ pi = \ dfrac {\ mathbb {P} \ left (X = x \ mid Y = 0 \ right) \ mathbb {P} \ left (Y = 0 \ høyre)} {\ displaystyle \ sum \ limits_ {j} \ mathbb {P} \ left (X = x \ mid Y = j \ right) \ mathbb {P} \ left (Y = j \ right)} $$ og tilordne noe for distribusjonen av $ X \ mid Y = j $ og en tidligere distribusjon for $ Y $. Dette er, fra min begrensede forståelse, jeg tror grunnlaget for Linear Discriminant Analysis.