Regresión de Bayes: ¿cómo se hace en comparación con la regresión estándar?

Tengo algunas preguntas sobre la regresión bayesiana:

  1. Dada una regresión estándar como $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Si quiero cambiar esto a una regresión bayesiana, ¿necesito distribuciones previas tanto para $ \ beta_0 $ como para $ \ beta_1 $ (o no funciona de esta manera)?

  2. En la regresión estándar, uno intentaría minimizar los residuos para obtener valores únicos para $ \ beta_0 $ y $ \ beta_1 $. ¿Cómo se hace esto en la regresión de Bayes?


Realmente lucho mucho aquí:

$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$

La probabilidad proviene de conjunto de datos actual (por lo que es mi parámetro de regresión, pero no como un valor único sino como una distribución de probabilidad, ¿verdad?). Prior proviene de una investigación anterior (digamos). Así que obtuve esta ecuación:

$$ y = \ beta_1 x + \ varepsilon $$

con $ \ beta_1 $ siendo mi probabilidad o posterior (o esto es totalmente incorrecto)?

Simplemente no puedo entender cómo la regresión estándar se transforma en una de Bayes.

Respuesta

Modelo de regresión lineal simple

$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$

se puede escribir en términos del modelo probabilístico detrás de él

$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$

es decir la variable dependiente $ Y $ sigue la distribución normal parametrizada por la media $ \ mu_i $, que es una función lineal de $ X $ parametrizada por $ \ alpha, \ beta $, y por la desviación estándar $ \ sigma $. Si estima dicho modelo utilizando mínimos cuadrados ordinarios , no tiene que preocuparse por la formulación probabilística, porque está buscando valores óptimos de $ \ alpha, \ beta $ parámetros minimizando los errores al cuadrado de los valores ajustados a los valores predichos. Por otro lado, podría estimar dicho modelo utilizando la estimación de máxima verosimilitud , donde buscaría valores óptimos de parámetros maximizando la función de verosimilitud

$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$

donde $ \ mathcal {N} $ es una función de densidad de distribución normal evaluada en $ y_i $ puntos, parametrizada por medio $ \ alpha + \ beta x_i $ y desviación estándar $ \ sigma $.

En el enfoque bayesiano en lugar de maximizar la función de verosimilitud solo, asumiríamos distribuciones previas para los parámetros y usaríamos el teorema de Bayes

$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$

La función de probabilidad es la misma que la anterior, pero lo que cambia es que asume algunas distribuciones anteriores para los parámetros estimados $ \ alpha, \ beta, \ sigma $ e inclúyalos en la ecuación

$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {probabilidad}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$

«¿Qué distribuciones?» es una pregunta diferente, ya que hay un número ilimitado de opciones. Para los parámetros $ \ alpha, \ beta $, por ejemplo, podría asumir distribuciones normales parametrizadas por algunos hiperparámetros o $ t $ -distribution si desea asumir colas más pesadas, o distribución uniforme si no desea hacer muchas suposiciones, pero desea asumir que los parámetros pueden ser a priori «cualquier cosa en el rango dado», etc. Para $ \ sigma $ necesita asumir alguna distribución anterior que está limitada a ser mayor que cero, ya que la desviación estándar debe ser positiva. Esto puede llevar a la formulación del modelo como se ilustra a continuación por John K. Kruschke.

Formulación del modelo de regresión lineal bayesiana

(fuente: http://www.indiana.edu/~kruschke/BMLR/ )

Mientras que con la máxima probabilidad buscaba un único valor óptimo para cada uno de los parámetros, en el enfoque bayesiano, al aplicar el teorema de Bayes, se obtiene la distribución posterior de los parámetros. La estimación final dependerá de la información que provenga de sus datos y de sus antecedentes , pero cuanta más información contengan sus datos, menos influyente son priors .

Observe que cuando se usan priors uniformes, toman la forma $ f (\ theta) \ propto 1 $ después de eliminar las constantes de normalización. Esto hace que el teorema de Bayes sea proporcional a la función de verosimilitud sola, por lo que la distribución posterior alcanzará su máximo exactamente en el mismo punto que la estimación de máxima verosimilitud.En lo que sigue, la estimación con valores a priori uniformes será la misma que con el uso de mínimos cuadrados ordinarios, ya que minimizar los errores cuadrados equivale a maximizar la probabilidad normal .

Para estimar un modelo en el enfoque bayesiano en algunos casos, puede usar conjugar a priors , por lo que el posterior La distribución em> está disponible directamente (consulte el ejemplo de aquí ). Sin embargo, en la gran mayoría de los casos, la distribución posterior no estará disponible directamente y tendrá que utilizar los métodos Markov Chain Monte Carlo para estimar la modelo (consulte este ejemplo de uso del algoritmo Metropolis-Hastings para estimar parámetros de regresión lineal). Por último, si solo está interesado en estimaciones puntuales de parámetros, puede usar estimación máxima a posteriori , es decir,

$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$

Para obtener una descripción más detallada de la regresión logística, puede consultar el Modelo logit bayesiano – ¿explicación intuitiva? hilo.

Para obtener más información, puede consultar los siguientes libros:

Kruschke, J. (2014). Análisis de datos bayesianos: un tutorial con R, JAGS y Stan. Academic Press.

Gelman, A., Carlin, JB, Stern, HS y Rubin, DB (2004). Análisis de datos bayesianos. Chapman & Hall / CRC.

Comentarios

  • +1 Dada la forma en que se plantea la pregunta, yo ‘ tal vez enfatice un poco más esta diferencia filosófica: en la estimación de mínimos cuadrados ordinarios y máxima verosimilitud, comenzamos con la pregunta » ¿Cuáles son los mejores valores para $ \ beta_i $ (quizás para uso posterior )? » , mientras que en el enfoque bayesiano completo, comenzamos con la pregunta » ¿Qué podemos decir acerca de los valores desconocidos $ \ beta_i $? » y luego tal vez proceda a usar la media máxima a posteriori o posterior si se necesita una estimación puntual.
  • +1. Una cosa más que podría ser útil señalar para aclarar la relación entre los enfoques bayesiano y OLS es que OLS puede entenderse como media posterior bajo un plano previo (al menos hasta donde yo entiendo). Sería genial si pudieras explicarlo un poco en tu respuesta.
  • @amoeba es ‘ un buen punto, yo ‘ lo pensaré. Pero, por otro lado, no ‘ no quiero que la respuesta sea demasiado larga, por lo que tiene sentido ir a los detalles.
  • @amoeba FYI, I agregó un breve comentario sobre eso.

Respuesta

Dado un conjunto de datos $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ donde $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, una regresión lineal bayesiana modela el problema de la siguiente manera:

Anterior: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$

$ w $ es el vector $ (w_1, \ ldots, w_d) ^ T $, por lo que la distribución anterior es una Gaussiana multivariante; y $ I_d $ es la matriz de identidad $ d \ times d $.

Probabilidad: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$

Suponemos que $ Y_i \ perp Y_j | w, i \ neq j $

Por ahora usaremos la precisión en lugar de la varianza, $ a = 1 / \ sigma ^ 2 $ y $ b = 1 / \ sigma_w ^ 2 $. También asumiremos que se conocen $ a, b $.

El anterior puede expresarse como $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$

Y la probabilidad $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$

donde $ y = (y_1, \ ldots, y_N) ^ T $ y $ A $ es una matriz $ n \ times d $ donde la i -th fila es $ x_i ^ T $.

Entonces el posterior es $$ p (w | D) \ propto p (D | w) p (w) $$

Después de muchos cálculos , descubrimos que

$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$

donde ($ \ Lambda $ es la matriz de precisión)

$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$

Observe que $ \ mu $ es igual a $ w_ {MAP} $ de la regresión lineal regular, esto se debe a para el gaussiano, la media es igual a la moda.

Además, podemos hacer algo de álgebra sobre $ \ mu $ y obtener la siguiente igualdad ($ \ Lambda = a A ^ TA + bI_d $):

$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$

y comparar con $ w_ {MLE} $:

$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$

La expresión extra en $ \ mu $ corresponde a la anterior. Esto es similar a la expresión para la regresión de Ridge, para el caso especial cuando $ \ lambda = \ frac {b} {a} $. La regresión de crestas es más general porque la técnica puede elegir a priori impropios (en la perspectiva bayesiana).

Para la distribución posterior predictiva:

$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$

es posible calcular que

$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$

Referencia: Lunn et al. The BUGS Book

Para usar una herramienta MCMC como JAGS / Stan, verifique Kruschke «s Haciendo análisis de datos bayesianos

Comentarios

  • Gracias jpneto. Siento que esta es una gran respuesta, pero aún no la entiendo por falta de matemáticas. conocimiento. Pero definitivamente lo volveré a leer después de adquirir algunas habilidades matemáticas
  • Esto es muy bueno, pero la suposición de que se conoce la precisión es un poco poco común. Isn ‘ ¿Es mucho más común asumir una distribución Gamma inversa para la varianza, es decir, una distribución Gamma para la precisión?
  • +1. ¿Puede comentar un poco más sobre » La regresión de cresta es más general porque la técnica puede elegir valores previos incorrectos «? No ‘ no lo entiendo. Yo pensamiento RR = Gaussiano (adecuado) antes de $ w $.
  • @amoeba: El antes de Gauss es $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ pero $ \ lambda $ lata ser cero, lo que da como resultado un anterior inadecuado, es decir, da como resultado el MLE.
  • @DeltaIV: claro, cuando tenemos incertidumbre sobre un parámetro podemos modelarlo con un anterior. El supuesto de precisión conocida es para facilitar la búsqueda de una solución analítica. Por lo general, esas soluciones analíticas no son posibles y debemos utilizar aproximaciones, como MCMC o alguna técnica variacional.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *