Vad är skillnaden mellan logistisk regression och bayesisk logistisk regression?

Jag ”var lite förvirrad om dessa två är samma koncept. Om de är olika, vad är det för skillnad?

Tack!

Svar

De andra svaren är bra. För att klargöra intuitionen och ge ytterligare information:

  • I logistisk regression maximerar du sannolikhetsfunktionen $ p (y | \ beta_ {0}, \ beta_ {1}, x) $ (hitta MLE). Det vill säga du hittar vikterna $ \ beta_ {0}, \ beta_ {1} $ som maximerar hur sannolikt dina observerade data är. Det finns ingen sluten lösning på MLE, så du måste använda iterativa metoder. Detta ger dig en enskild poängskattning av våra vikter.
  • I bayesisk logistisk regression börjar du med en första tro på fördelningen av $ p (\ beta_ {0}, \ beta_ {1}) $. Sedan $ p (\ beta_ {0}, \ beta_ {1} | x, y) \ propto p (y | \ beta_ {0}, \ beta_ {1}, x) p (\ beta_ {0}, \ beta_ {1}) $. Det vill säga, den bakre, som är vår uppdaterade tro på de vikter som ges, är proportionell mot vår tidigare (första tro) sannolikhet. Vi kan inte utvärdera den stängda formen bakåt, men kan approximera den genom provtagning eller variationer. Detta ger oss en fördelning över vikterna. Om vi till exempel använder en normal approximation för både $ \ beta_ {0} $ och $ \ beta_ {1} $ med hjälp av variationsmetoder, då får vi ett medelvärde och varians för $ \ beta_ {0} $ och en för $ \ beta_ {1} $ också.

För mer information om båda teknikerna är dessa skrivanteckningar av en föreläsning utmärkta http://web.cse.ohio-state.edu/~kulis/teaching/788_sp12/scribe_notes/lecture6.pdf .

Kommentarer

  • Maximal sannolikhetsuppskattning ger en punktuppskattning av parametrarna, men man kan också och bör ge en uppskattning av osäkerhet genom att använda normal-approximation motiverad av de stora provegenskaperna hos maximala sannolikhetsuppskattare. Bayesisk logistikregression börjar med tidigare information inte tro. Om du inte har någon tidigare information bör du använda en icke-informativ prior. Gelman et al. rekommenderar standard logistisk regression Cauchy priors med skala = 0,1 för avlyssningstermer och skala = 0,4 för lutningsvillkor.
  • Tack. Kan du klargöra innebörden av tidigare information?
  • Det ' handlar mest om semantik. Tidigare tro och tidigare information är två olika fraser på engelska för samma koncept: sannolikhetsfördelningen för de parametrar du tar med dig i modellen. Jag betonar termen information över tro eftersom du verkligen borde ha en viss motivering för den (befintlig litteratur, expertutlåtande, en pilotstudie eller till och med en empirisk uppskattning) annat än din egen tro.
  • Om länken inte ' t arbete: web.archive.org/web/20150409022746/http://…

Svar

Antag att du har en uppsättning binära observationer $ Y_i $ för $ i = 1, \ ldots, n $ och för varje observation en tillhörande förklarande variabel $ X_i $. Logistisk regression förutsätter $$ Y_i \ stackrel {ind} {\ sim} Ber (\ pi_i), \ quad \ ln \ left (\ frac {\ pi_i} {1- \ pi_i} \ höger) = \ beta_0 + \ beta_1 X_i. $$ Om du får poänguppskattningar av parametrarna med maximal sannolikhet, använder du bara antagandena ovan. Men om du får uppskattningar av parametrarna med en Bayesian-metod, måste du definiera en prior för $ \ beta_0 $ och $ \ beta_1 $, kalla det $ p (\ beta_0, \ beta_1) $. Detta tidigare tillsammans med de logistiska regressionsantagandena ovan är Bayesisk logistisk regression.

Svar

Jag hävdar inte att jag är expert på logistisk regression. Men jag antar att det går ungefär så här – antar $ Y $ är en binär slumpmässig variabel som tar antingen värdet $ 0 $ eller $ 1 $. Definiera $$ \ pi = \ mathbb {P} \ left (Y = 0∣X \ höger) \ text {,} $$ där $ X $ är den oberoende variabeln (jag antar bara en förutsägare för enkelhetens skull). Sedan antar logistisk regression formen $$ \ ln \ left (\ dfrac {\ pi} {1- \ pi} \ right) = \ beta_0 + \ beta_1 X + \ epsilon $$ där $ \ epsilon $ är oberoende av $ X $ och har medelvärde $ 0 $, och $ \ beta_i $ uppskattas med maximal sannolikhet. Med Bayesisk logistisk regression föreställer jag mig att du använder något som $$ \ pi = \ dfrac {\ mathbb {P} \ left (X = x \ mid Y = 0 \ right) \ mathbb {P} \ left (Y = 0 \ höger)} {\ displaystyle \ sum \ limits_ {j} \ mathbb {P} \ left (X = x \ mid Y = j \ right) \ mathbb {P} \ left (Y = j \ right)} $$ och tilldela något för fördelningen av $ X \ mid Y = j $ och en tidigare distribution för $ Y $. Enligt min begränsade förståelse tror jag att det är grunden för linjär diskriminantanalys.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *