Bayes-Regression: Wie wird es im Vergleich zur Standardregression gemacht?

Ich habe einige Fragen zur Bayesschen Regression erhalten:

  1. Bei einer Standardregression als $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Wenn ich dies in eine Bayessche Regression umwandeln möchte, benötige ich vorherige Verteilungen sowohl für $ \ beta_0 $ als auch für $ \ beta_1 $ (oder funktioniert das nicht so)?

  2. In der Standardregression würde man versuchen, die Residuen zu minimieren, um einzelne Werte für $ \ beta_0 $ und $ \ beta_1 $ zu erhalten. Wie wird dies in der Bayes-Regression gemacht?


Ich habe hier wirklich große Probleme:

$$ \ text {posterior} = \ text {prior} \ times \ text {Wahrscheinlichkeit} $$

Wahrscheinlichkeit kommt von der aktueller Datensatz (also ist es mein Regressionsparameter, aber nicht als einzelner Wert, sondern als Wahrscheinlichkeitsverteilung, oder?). Prior stammt aus einer früheren Untersuchung (sagen wir mal). Also habe ich diese Gleichung erhalten:

$$ y = \ beta_1 x + \ varepsilon $$

mit $ \ beta_1 $ Ist meine Wahrscheinlichkeit oder posterior (oder ist das einfach völlig falsch)?

Ich kann einfach nicht verstehen, wie sich die Standardregression in eine Bayes-Regression verwandelt.

Antwort

Einfaches lineares Regressionsmodell

$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$

kann geschrieben werden in Bezug auf das dahinter stehende Wahrscheinlichkeitsmodell

$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$

dh Die abhängige Variable $ Y $ folgt der Normalverteilung, die durch den Mittelwert $ \ mu_i $ parametrisiert ist, dh eine lineare Funktion von $ X $, die durch $ \ alpha, \ beta $ und durch die Standardabweichung $ \ sigma $ parametrisiert ist. Wenn Sie ein solches Modell mit gewöhnlichen kleinsten Quadraten schätzen, müssen Sie sich nicht um die probabilistische Formulierung kümmern, da Sie nach optimalen Werten für $ \ alpha, \ suchen Beta $ -Parameter durch Minimierung der quadratischen Fehler angepasster Werte auf vorhergesagte Werte. Andererseits könnten Sie ein solches Modell mit Maximum-Likelihood-Schätzung schätzen, wobei Sie nach optimalen Parameterwerten suchen würden, indem Sie die Likelihood-Funktion

$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$

wobei $ \ mathcal {N} $ eine Dichtefunktion der Normalverteilung ist, die an $ y_i $ Punkten ausgewertet wird und mit $ \ alpha + \ beta parametrisiert wird x_i $ und Standardabweichung $ \ sigma $.

Beim Bayesschen Ansatz würden wir, anstatt nur die Wahrscheinlichkeitsfunktion zu maximieren, vorherige Verteilungen für die Parameter annehmen und den Bayes-Satz

$$ \ text {posterior verwenden } \ propto \ text {Wahrscheinlichkeit} \ times \ text {prior} $$

Die Wahrscheinlichkeitsfunktion ist dieselbe wie oben, aber was sich ändert, ist, dass Sie einige vorherige Verteilungen annehmen für die geschätzten Parameter $ \ alpha, \ beta, \ sigma $ und fügen Sie sie in die Gleichung

$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ ein {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {Wahrscheinlichkeit}} \ ;; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$

„Welche Verteilungen?“ ist eine andere Frage, da es eine unbegrenzte Anzahl von Auswahlmöglichkeiten gibt. Für $ \ alpha, \ beta $ -Parameter können Sie beispielsweise Normalverteilungen annehmen, die durch einige -Hyperparameter oder $ t $ -Verteilung , wenn Sie schwerere Schwänze annehmen möchten, oder gleichmäßige Verteilung, wenn Sie nicht viele Annahmen treffen möchten, aber davon ausgehen möchten, dass die Parameter a priori sein können „alles im angegebenen Bereich“ usw. Für $ \ sigma $ müssen Sie eine vorherige Verteilung annehmen, die begrenzt größer als Null ist, da die Standardabweichung positiv sein muss. Dies kann zu der unten von John K. Kruschke dargestellten Modellformulierung führen.

Bayesianische lineare Regressionsmodellformulierung

(Quelle: http://www.indiana.edu/~kruschke/BMLR/ )

Während Sie mit maximaler Wahrscheinlichkeit nach einem einzelnen optimalen Wert für jeden der Parameter gesucht haben, erhalten Sie beim Bayesschen Ansatz durch Anwendung des Bayes-Theorems die posteriore Verteilung der Parameter. Die endgültige Schätzung hängt von den Informationen ab, die aus Ihren Daten und von Ihren Prioritäten stammen. Je mehr Informationen in Ihren Daten enthalten sind, desto weniger Einfluss haben sie sind Priors .

Beachten Sie, dass bei Verwendung einheitlicher Priors nach dem Löschen der Normalisierungskonstanten die Form $ f (\ theta) \ propto 1 $ angenommen wird. Dies macht den Bayes-Satz proportional zur Wahrscheinlichkeitsfunktion allein, so dass die hintere Verteilung ihr Maximum genau an dem Punkt erreicht, an dem die maximale Wahrscheinlichkeit geschätzt wird.Was folgt, ist die Schätzung unter einheitlichen Prioritäten dieselbe wie unter Verwendung gewöhnlicher kleinster Quadrate, da das Minimieren der quadratischen Fehler dem Maximieren der normalen Wahrscheinlichkeit entspricht.

Um ein Modell im Bayesschen Ansatz zu schätzen, können Sie in einigen Fällen konjugierte Prioritäten verwenden, also den posterioren -Distribution ist direkt verfügbar (siehe Beispiel hier ). In den allermeisten Fällen ist die posterior -Verteilung jedoch nicht direkt verfügbar, und Sie müssen Markov Chain Monte Carlo -Methoden zur Schätzung der verwenden Modell (überprüfen Sie dieses Beispiel der Verwendung des Metropolis-Hastings-Algorithmus zum Schätzen von Parametern der linearen Regression). Wenn Sie nur an Punktschätzungen von Parametern interessiert sind, können Sie maximal eine nachträgliche Schätzung verwenden, dh

$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$

Für eine detailliertere Beschreibung der logistischen Regression können Sie das Bayesianisches Logit-Modell – intuitive Erklärung? Thread.

Weitere Informationen finden Sie in den folgenden Büchern:

Kruschke, J. (2014). Bayesianische Datenanalyse durchführen: Ein Tutorial mit R, JAGS und Stan. Academic Press.

Gelman, A., Carlin, JB, Stern, HS und Rubin, DB (2004). Bayesianische Datenanalyse. Chapman & Hall / CRC.

Kommentare

  • +1 Angesichts der Art und Weise, wie die Frage gestellt wird, würde ich ‚ vielleicht etwas betonen mehr dieser philosophische Unterschied: Bei gewöhnlichen Schätzungen der kleinsten Quadrate und der maximalen Wahrscheinlichkeit beginnen wir mit der Frage “ Was sind die besten Werte für $ \ beta_i $ (möglicherweise für die spätere Verwendung) )? “ , während wir im vollständigen Bayesschen Ansatz mit der Frage “ beginnen. Was können wir sagen? über die unbekannten Werte $ \ beta_i $? “ und verwenden Sie dann möglicherweise das Maximum a posteriori oder posterior mean, wenn eine Punktschätzung erforderlich ist.
  • +1. Eine weitere Sache, die nützlich sein könnte, um die Beziehung zwischen Bayesschen und OLS-Ansätzen zu verdeutlichen, ist, dass OLS als posteriorer Mittelwert unter einem flachen Prior verstanden werden kann (zumindest soweit ich das verstehe). Wäre großartig, wenn Sie dies in Ihrer Antwort etwas näher erläutern könnten.
  • @amoeba ‚ ist ein guter Punkt, ich ‚ Ich werde darüber nachdenken. Andererseits möchte ich ‚ die Antwort nicht zu lang machen, daher ist es sinnvoll, auf Details einzugehen.
  • @amoeba FYI, I. fügte einen kurzen Kommentar hinzu.

Antwort

Angesichts eines Datensatzes $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ wobei $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, eine Bayessche lineare Regression das Problem folgendermaßen modelliert:

Prior: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$

$ w $ ist der Vektor $ (w_1, \ ldots, w_d) ^ T $, Die vorherige Verteilung ist also eine multivariate Gaußsche Verteilung. und $ I_d $ ist die $ d \ times d $ Identitätsmatrix.

Wahrscheinlichkeit: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$

Wir nehmen an, dass $ Y_i \ perp Y_j | w, i \ neq j $

Im Moment verwenden wir die Genauigkeit anstelle der Varianz, $ a = 1 / \ sigma ^ 2 $ und $ b = 1 / \ sigma_w ^ 2 $. Wir gehen auch davon aus, dass $ a, b $ bekannt sind.

Der Prior kann als $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} angegeben werden. w ^ tw \ Big \} $$

Und die Wahrscheinlichkeit $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$

wobei $ y = (y_1, \ ldots, y_N) ^ T $ und $ A $ eine $ n \ mal d $ Matrix ist, in der das i -te Zeile ist $ x_i ^ T $.

Dann ist der hintere $$ p (w | D) \ propto p (D | w) p (w) $$

Nach vielen Berechnungen stellen wir fest, dass

$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$

wobei ($ \ Lambda $ die Präzisionsmatrix ist)

$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$

Beachten Sie, dass $ \ mu $ gleich dem $ w_ {MAP} $ der regulären linearen Regression ist Für den Gaußschen Wert ist der Mittelwert gleich dem Modus.

Außerdem können wir eine Algebra über $ \ mu $ erstellen und die folgende Gleichheit erhalten ($ \ Lambda = a A ^ TA + bI_d $):

$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$

und vergleiche mit $ w_ {MLE} $:

$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$

Der zusätzliche Ausdruck in $ \ mu $ entspricht dem vorherigen. Dies ähnelt dem Ausdruck für die Ridge-Regression für den Sonderfall, wenn $ \ lambda = \ frac {b} {a} $. Die Ridge-Regression ist allgemeiner, da die Technik falsche Prioritäten auswählen kann (in der Bayesschen Perspektive).

Für die prädiktive posteriore Verteilung gilt:

$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D. ) dw = \ int p (y | x, w) p (w | D) dw $$

es ist möglich zu berechnen, dass

$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$

Referenz: Lunn et al. Das BUGS-Buch

Für die Verwendung eines MCMC-Tools wie JAGS / Stan überprüfen Sie Kruschkes Bayesianische Datenanalyse

Kommentare

  • Vielen Dank, jpneto. Ich denke, dass dies eine großartige Antwort ist, aber ich verstehe sie noch nicht, weil es an Mathematik mangelt. Wissen. Aber ich werde es auf jeden Fall wieder lesen, nachdem ich einige mathematische Fähigkeiten erworben habe.
  • Das ist sehr schön, aber die Annahme, dass die Präzision bekannt ist, ist etwas ungewöhnlich. Isn ‚ Ist es viel üblicher, eine inverse Gammaverteilung für die Varianz anzunehmen, dh eine Gammaverteilung für die Genauigkeit?
  • +1. Können Sie Die Ridge-Regression ist allgemeiner, da die Technik falsche Prioritäten auswählen kann. „? Ich verstehe sie nicht ‚ dachte RR = Gauß (richtig) vor $ w $.
  • @amoeba: Der Gaußsche Prior ist $ w \ sim N (0, \ lambda ^ {- 1} I_d) $, aber $ \ lambda $ kann Null sein, was zu einem falschen Prior führt, dh zu einem MLE.
  • @DeltaIV: Sicher, wenn wir Unsicherheit über einen Parameter haben, können wir dies mit einem Prior modellieren. Die Annahme bekannter Präzision soll es einfacher machen, eine analytische Lösung zu finden. Normalerweise sind diese analytischen Lösungen nicht möglich und wir müssen Näherungen wie MCMC oder eine Variationstechnik verwenden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.