Was ist der Unterschied zwischen logistischer Regression und bayesianischer logistischer Regression?

Ich bin etwas verwirrt, ob diese beiden das gleiche Konzept sind. Wenn sie unterschiedlich sind, was ist der Unterschied?

Danke!

Antwort

Die anderen Antworten sind gut. Um jedoch die Intuition zu verdeutlichen und einige weitere Details anzugeben:

  • Bei der logistischen Regression maximieren Sie die Wahrscheinlichkeitsfunktion $ p (y | \ beta_ {0}, \ beta_ {1}, x) $ (finde MLE). Das heißt, Sie finden die Gewichte $ \ beta_ {0}, \ beta_ {1} $, die die Wahrscheinlichkeit Ihrer beobachteten Daten maximieren. Es gibt keine geschlossene Lösung für die MLE, daher müssen Sie iterative Methoden verwenden. Dies gibt Ihnen eine Einzelpunktschätzung unserer Gewichte.
  • Bei der Bayesschen logistischen Regression beginnen Sie mit einer anfänglichen Annahme über die Verteilung von $ p (\ beta_ {0}, \ beta_ {1}) $. Dann $ p (\ beta_ {0}, \ beta_ {1} | x, y) \ propto p (y | \ beta_ {0}, \ beta_ {1}, x) p (\ beta_ {0}, \ beta_ {1}) $. Das heißt, der hintere Teil, der unsere aktualisierte Überzeugung über die angegebenen Gewichte ist, ist proportional zu unserer vorherigen (anfänglichen Überzeugung) mal der Wahrscheinlichkeit. Wir können die geschlossene Form posterior nicht bewerten, sondern durch Stichproben- oder Variationsmethoden approximieren. Dies gibt uns eine Verteilung über die Gewichte. Wenn wir beispielsweise eine normale Näherung sowohl für $ \ beta_ {0} $ als auch für $ \ verwenden beta_ {1} $ unter Verwendung von Variationsmethoden, dann erhalten wir einen Mittelwert und eine Varianz für $ \ beta_ {0} $ und einen für $ \ beta_ {1} $.

Für weitere Einzelheiten zu beiden Techniken sind diese Schreibnotizen einer Vorlesung ausgezeichnet. http://web.cse.ohio-state.edu/~kulis/teaching/788_sp12/scribe_notes/lecture6.pdf .

Kommentare

  • Die Maximum-Likelihood-Schätzung liefert zwar eine Punktschätzung der Parameter, man kann aber auch und sollte eine Schätzung der Unsicherheit unter Verwendung liefern Normalnäherung gerechtfertigt durch die Eigenschaften großer Stichproben von Maximum-Likelihood-Schätzern. Bayesianische Logistikregressionen beginnen mit vorherigen Informationen nicht Überzeugungen. Wenn Sie keine vorherigen Informationen haben, sollten Sie einen nicht informativen Prior verwenden. Gelman et al. Standardmäßige logistische Regression empfehlen Cauchy-Prioritäten mit Skalierung = 0,1 für Abfangterme und Skalierung = 0,4 für Steigungsterme.
  • Vielen Dank. Können Sie die Bedeutung von Vorinformationen klären?
  • ' ist hauptsächlich eine Frage der Semantik. Vorherige Überzeugung und vorherige Information sind zwei verschiedene englische Phrasen für dasselbe Konzept: die Wahrscheinlichkeitsverteilung der Parameter, die Sie in das Modell mitnehmen. Ich betone den Begriff Information über Glauben, weil Sie wirklich eine Rechtfertigung dafür haben sollten (vorhandene Literatur, Expertenmeinung, eine Pilotstudie oder sogar eine empirische Schätzung), die nicht Ihrem eigenen Glauben entspricht.
  • Wenn der Link nicht stimmt ' funktioniert nicht: web.archive.org/web/20150409022746/http://…

Antwort

Angenommen, Sie haben eine Reihe von binären Beobachtungen $ Y_i $ für $ i = 1, \ ldots, n $ und für jede Beobachtung eine zugehörige erklärende Variable $ X_i $. Die logistische Regression setzt $$ Y_i \ stackrel {ind} {\ sim} Ber (\ pi_i), \ quad \ ln \ left (\ frac {\ pi_i} {1- \ pi_i} \ right) = \ beta_0 + \ beta_1 X_i voraus. $$ Wenn Sie Punktschätzungen der Parameter über die maximale Wahrscheinlichkeit erhalten, verwenden Sie einfach die obigen Annahmen. Wenn Sie jedoch Schätzungen der Parameter mithilfe eines Bayesschen Ansatzes erhalten, müssen Sie einen Prior für $ \ beta_0 $ und $ \ beta_1 $ definieren und ihn $ p (\ beta_0, \ beta_1) $ nennen. Dieser Prior ist zusammen mit den obigen logistischen Regressionsannahmen die Bayessche logistische Regression.

Antwort

Ich behaupte nicht, ein Experte für logistische Regression zu sein. Aber ich stelle mir vor, es geht ungefähr so – nehmen wir an $ Y $ ist eine binäre Zufallsvariable, die entweder den Wert $ 0 $ oder $ 1 $ annimmt. Definieren Sie $$ \ pi = \ mathbb {P} \ left (Y = 0∣X \ right) \ text {,} $$ wobei $ X $ ist die unabhängige Variable (der Einfachheit halber nehme ich nur einen Prädiktor an). Dann nimmt die logistische Regression die Form $$ \ ln \ left (\ dfrac {\ pi} {1- \ pi} \ right) = \ beta_0 + \ beta_1 X + \ epsilon $$ an, wobei $ \ epsilon $ unabhängig von $ X $ ist und hat einen Mittelwert von $ 0 $, und die $ \ beta_i $ werden unter Verwendung der maximalen Wahrscheinlichkeit geschätzt. Ich stelle mir vor, dass Sie bei der Bayesschen logistischen Regression so etwas wie $$ \ pi = \ dfrac {\ mathbb {P} \ left (X = x \ mid Y = 0 \ right) \ mathbb {P} \ left (Y = 0 \) verwenden rechts)} {\ displaystyle \ sum \ limit_ {j} \ mathbb {P} \ left (X = x \ mid Y = j \ right) \ mathbb {P} \ left (Y = j \ right)} $$ und Weisen Sie etwas für die Verteilung von $ X \ mid Y = j $ und eine vorherige -Verteilung für $ Y $ zu. Nach meinem begrenzten Verständnis glaube ich, dass dies die Grundlage der linearen Diskriminanzanalyse ist.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.