Jeg er lidt forvirret, om disse to er det samme koncept. Hvis de er forskellige, hvad er forskellen?
Tak!
Svar
De andre svar er gode. For at afklare intuitionen samt give nogle yderligere detaljer:
- I logistisk regression maksimerer du sandsynlighedsfunktionen $ p (y | \ beta_ {0}, \ beta_ {1}, x) $ (find MLE). Det vil sige, du finder vægten $ \ beta_ {0}, \ beta_ {1} $, der maksimerer, hvor sandsynligt dine observerede data er. Der er ingen lukket formopløsning til MLE, så du skal bruge iterative metoder. Dette giver dig et enkelt estimat af vores vægte.
- I bayesisk logistisk regression starter du med en indledende overbevisning om fordelingen af $ p (\ beta_ {0}, \ beta_ {1}) $. Derefter $ p (\ beta_ {0}, \ beta_ {1} | x, y) \ propto p (y | \ beta_ {0}, \ beta_ {1}, x) p (\ beta_ {0}, \ beta_ {1}) $. Det vil sige, at den bageste, som er vores opdaterede overbevisning om de vægte, der er givet bevis, er proportional med vores tidligere (indledende tro) sandsynlighed. Vi kan ikke evaluere den lukkede form bageste, men kan tilnærme den ved prøveudtagning eller variationelle metoder. Dette giver os en fordeling over vægtene. For eksempel hvis vi bruger en normal tilnærmelse til både $ \ beta_ {0} $ og $ \ beta_ {1} $ ved hjælp af variationsmetoder, så får vi et gennemsnit og varians for $ \ beta_ {0} $ og en for $ \ beta_ {1} $ også.
For yderligere detaljer om begge teknikker er disse skriftlige noter til et foredrag fremragende http://web.cse.ohio-state.edu/~kulis/teaching/788_sp12/scribe_notes/lecture6.pdf .
Kommentarer
- Maksimal sandsynlighedsestimering giver et punktestimat af parametrene, men man kan også og skulle give et estimat for usikkerhed ved at bruge normal-tilnærmelse retfærdiggjort af de store prøveegenskaber ved estimatorer for maksimal sandsynlighed. Bayesisk logistikregression begynder med forudgående information ikke tro. Hvis du ikke har nogen forudgående information, skal du bruge en ikke-informativ prior. Gelman et al. anbefale standard logistisk regression Cauchy priors med skala = 0.1 for aflytningsudtryk og skala = 0.4 for hældningsudtryk.
- Tak. Kan du afklare betydningen af forudgående information?
- Det ' handler hovedsageligt om semantik. Forudgående overbevisning og forudgående information er to forskellige engelsksprogede sætninger for det samme koncept: sandsynlighedsfordelingen af de parametre, du tager med dig i modellen. Jeg understreger udtrykket information frem for tro, fordi du virkelig burde have en eller anden begrundelse for det (eksisterende litteratur, ekspertudtalelse, en pilotundersøgelse eller endda et empirisk skøn) bortset fra din egen tro. ' t arbejde: web.archive.org/web/20150409022746/http://…
Svar
Antag at du har et sæt binære observationer $ Y_i $ for $ i = 1, \ ldots, n $ og for hver observation en tilhørende forklaringsvariabel $ X_i $. Logistisk regression antager $$ Y_i \ stackrel {ind} {\ sim} Ber (\ pi_i), \ quad \ ln \ left (\ frac {\ pi_i} {1- \ pi_i} \ right) = \ beta_0 + \ beta_1 X_i. $$ Hvis du opnår punktestimater for parametrene via maksimal sandsynlighed, skal du bare bruge antagelserne ovenfor. Men hvis du opnår skøn over parametrene ved hjælp af en Bayesian-tilgang, skal du definere en prior for $ \ beta_0 $ og $ \ beta_1 $, kalde det $ p (\ beta_0, \ beta_1) $. Dette tidligere sammen med de ovenstående antagelser om logistisk regression er Bayesisk logistisk regression.
Svar
Jeg hævder ikke at være ekspert på logistisk regression. Men jeg forestiller mig, at det går sådan noget – antag $ Y $ er en binær tilfældig variabel, der antager enten værdien $ 0 $ eller $ 1 $. Definer $$ \ pi = \ mathbb {P} \ left (Y = 0∣X \ right) \ text {,} $$ hvor $ X $ er den uafhængige variabel (jeg antager kun en forudsigelse for enkelhedens skyld). Så antager logistisk regression formen $$ \ ln \ left (\ dfrac {\ pi} {1- \ pi} \ right) = \ beta_0 + \ beta_1 X + \ epsilon $$ hvor $ \ epsilon $ er uafhængig af $ X $ og har gennemsnit $ 0 $, og $ \ beta_i $ estimeres ved hjælp af maksimal sandsynlighed. Med Bayesisk logistisk regression kan jeg forestille mig at du bruger noget som $$ \ pi = \ dfrac {\ mathbb {P} \ left (X = x \ mid Y = 0 \ right) \ mathbb {P} \ left (Y = 0 \ til højre)} {\ displaystyle \ sum \ limits_ {j} \ mathbb {P} \ left (X = x \ mid Y = j \ right) \ mathbb {P} \ left (Y = j \ right)} $$ og tildel noget til fordelingen af $ X \ mid Y = j $ og en forudgående distribution for $ Y $. Dette er, fra min begrænsede forståelse, jeg tror på grundlaget for Lineær diskriminerende analyse.