Jai des questions sur la régression bayésienne:
-
Étant donné une régression standard comme $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Si je veux changer cela en une régression bayésienne, ai-je besoin de distributions antérieures à la fois pour $ \ beta_0 $ et $ \ beta_1 $ (ou ça ne fonctionne pas de cette façon)?
-
Dans la régression standard, on essaierait de minimiser les résidus pour obtenir des valeurs uniques pour $ \ beta_0 $ et $ \ beta_1 $. Comment cela se fait-il dans la régression de Bayes?
Jai vraiment beaucoup de mal ici:
$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$
La vraisemblance vient du ensemble de données actuel (donc cest mon paramètre de régression mais pas comme une valeur unique mais comme une distribution de vraisemblance, non?). Prior vient dune recherche précédente (disons). Jai donc obtenu cette équation:
$$ y = \ beta_1 x + \ varepsilon $$
avec $ \ beta_1 $ étant ma probabilité ou postérieure (ou est-ce totalement faux)?
Je ne peux tout simplement pas comprendre comment la régression standard se transforme en une régression de Bayes.
Réponse
Modèle de régression linéaire simple
$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$
peut être écrit en termes de modèle probabiliste derrière lui
$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$
ie la variable dépendante $ Y $ suit la distribution normale paramétrée par la moyenne $ \ mu_i $, cest-à-dire une fonction linéaire de $ X $ paramétrée par $ \ alpha, \ beta $, et par lécart type $ \ sigma $. Si vous estimez ce modèle en utilisant les moindres carrés ordinaires , vous n’avez pas à vous soucier de la formulation probabiliste, car vous recherchez des valeurs optimales de $ \ alpha, \ beta $ paramètres en minimisant les erreurs au carré des valeurs ajustées aux valeurs prédites. Dun autre côté, vous pouvez estimer ce modèle en utilisant l estimation du maximum de vraisemblance , où vous rechercheriez les valeurs optimales des paramètres en maximisant la fonction de vraisemblance
$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$
où $ \ mathcal {N} $ est une fonction de densité de distribution normale évaluée à $ y_i $ points, paramétrée par des moyens $ \ alpha + \ beta x_i $ et écart type $ \ sigma $.
Dans lapproche bayésienne, au lieu de maximiser la fonction de vraisemblance seule, nous supposerions des distributions antérieures pour les paramètres et utiliserions le théorème de Bayes
$$ \ text {postérieur } \ propto \ text {likelihood} \ times \ text {prior} $$
La fonction de vraisemblance est la même que ci-dessus, mais ce qui change, cest que vous supposez des distributions antérieures pour les paramètres estimés $ \ alpha, \ beta, \ sigma $ et les inclure dans léquation
$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {postérieur}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {vraisemblance}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$
« Quelles distributions? » est une autre question, car il y a un nombre illimité de choix. Pour les paramètres $ \ alpha, \ beta $, vous pouvez, par exemple, supposer des distributions normales paramétrées par des hyperparamètres , ou $ t $ -distribution si vous voulez supposer des queues plus lourdes, ou une distribution uniforme si vous ne voulez pas faire beaucoup dhypothèses, mais que vous voulez supposer que les paramètres peuvent être a priori « tout ce qui est dans la plage donnée », etc. Pour $ \ sigma $, vous devez supposer une distribution antérieure qui est bornée à être supérieure à zéro, car lécart-type doit être positif. Cela peut conduire à la formulation du modèle comme illustré ci-dessous par John K. Kruschke.
(source: http://www.indiana.edu/~kruschke/BMLR/ )
Alors que dans le maximum de vraisemblance vous cherchiez une seule valeur optimale pour chacun des paramètres, en approche bayésienne en appliquant le théorème de Bayes vous obtenez la distribution postérieure des paramètres. Lestimation finale dépendra des informations issues de vos données et de vos priors , mais plus dinformations sont contenues dans vos données, moins elles ont dinfluence sont des a priori .
Notez que lorsque vous utilisez des a priori uniformes, ils prennent la forme $ f (\ theta) \ propto 1 $ après avoir abandonné les constantes de normalisation. Cela rend le théorème de Bayes proportionnel à la fonction de vraisemblance seule, de sorte que la distribution postérieure atteindra son maximum exactement au même point que lestimation du maximum de vraisemblance.Ce qui suit, lestimation sous des a priori uniformes sera la même quen utilisant les moindres carrés ordinaires puisque minimiser les erreurs au carré correspond à maximiser la vraisemblance normale .
Pour estimer un modèle en approche bayésienne dans certains cas, vous pouvez utiliser priors conjugués , donc le postérieur distribution est directement disponible (voir lexemple ici ). Cependant, dans la grande majorité des cas, la distribution postérieure ne sera pas directement disponible et vous devrez utiliser les méthodes Markov Chain Monte Carlo pour estimer la modèle (consultez cet exemple dutilisation de lalgorithme Metropolis-Hastings pour estimer les paramètres de régression linéaire). Enfin, si vous nêtes intéressé que par des estimations ponctuelles de paramètres, vous pouvez utiliser l estimation maximale a posteriori , cest-à-dire
$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$
Pour une description plus détaillée de la régression logistique, vous pouvez vérifier le Modèle logit bayésien – explication intuitive? thread.
Pour en savoir plus, vous pouvez consulter les livres suivants:
Kruschke, J. (2014). Analyse des données bayésiennes: un didacticiel avec R, JAGS et Stan. Academic Press.
Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2004). Analyse des données bayésiennes. Chapman & Hall / CRC.
Commentaires
- +1 Compte tenu de la façon dont la question est posée, je ‘ peut-être souligner un peu plus cette différence philosophique: dans lestimation des moindres carrés ordinaires et du maximum de vraisemblance, nous commençons par la question » Quelles sont les meilleures valeurs pour $ \ beta_i $ (peut-être pour une utilisation ultérieure )? » , alors que dans lapproche bayésienne complète, nous commençons par la question » Que pouvons-nous dire à propos des valeurs inconnues $ \ beta_i $? » puis peut-être procéder à lutilisation de la moyenne a posteriori ou postérieure maximale si une estimation ponctuelle est nécessaire.
- +1. Une autre chose quil pourrait être utile de souligner pour clarifier la relation entre les approches bayésienne et OLS est que lOLS peut être comprise comme une moyenne postérieure sous un a priori plat (du moins autant que je sache). Ce serait formidable si vous pouviez élaborer un peu sur ce point dans votre réponse.
- @amoeba cest ‘ un bon point, je ‘ Jy réfléchirai. Mais dun autre côté, je ne ‘ pas vouloir rendre la réponse ouvertement longue, il est donc utile daller aux détails.
- @amoeba Pour info, je a ajouté un bref commentaire à ce sujet.
Réponse
Étant donné un ensemble de données $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ où $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, une régression linéaire bayésienne modélise le problème de la manière suivante:
Avant: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$
$ w $ est le vecteur $ (w_1, \ ldots, w_d) ^ T $, donc la distribution précédente est une gaussienne multivariée; et $ I_d $ est la matrice didentité $ d \ times d $.
Probabilité: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$
Nous supposons que $ Y_i \ perp Y_j | w, i \ neq j $
Pour linstant, nous utiliserons la précision au lieu de la variance, $ a = 1 / \ sigma ^ 2 $ et $ b = 1 / \ sigma_w ^ 2 $. Nous supposerons également que $ a, b $ sont connus.
Le préalable peut être déclaré comme $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$
Et la vraisemblance $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$
où $ y = (y_1, \ ldots, y_N) ^ T $ et $ A $ est une matrice $ n \ times d $ où le i -th ligne est $ x_i ^ T $.
Alors le postérieur est $$ p (w | D) \ propto p (D | w) p (w) $$
Après de nombreux calculs , nous découvrons que
$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$
où ($ \ Lambda $ est la matrice de précision)
$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$
Notez que $ \ mu $ est égal à $ w_ {MAP} $ de la régression linéaire régulière, cest parce que pour le gaussien, la moyenne est égale au mode.
Aussi, nous pouvons faire de lalgèbre sur $ \ mu $ et obtenir légalité suivante ($ \ Lambda = a A ^ TA + bI_d $):
$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$
et comparez avec $ w_ {MLE} $:
$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$
Lexpression supplémentaire dans $ \ mu $ correspond à la précédente. Ceci est similaire à lexpression de la régression Ridge, pour le cas spécial où $ \ lambda = \ frac {b} {a} $. La régression de crête est plus générale car la technique peut choisir des a priori incorrects (dans la perspective bayésienne).
Pour la distribution a posteriori prédictive:
$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$
il est possible de calculer cela
$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$
Référence: Lunn et al. The BUGS Book
Pour utiliser un outil MCMC comme JAGS / Stan, vérifiez Kruschke « s Faire une analyse de données bayésienne > Mais je vais certainement le relire après avoir acquis quelques compétences en mathématiques