Tenho algumas perguntas sobre a regressão Bayesiana:
-
Dada uma regressão padrão como $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Se eu quiser mudar isso para uma regressão Bayesiana, preciso de distribuições anteriores para $ \ beta_0 $ e $ \ beta_1 $ (ou não funciona assim)?
-
Na regressão padrão, tentaria minimizar os resíduos para obter valores únicos para $ \ beta_0 $ e $ \ beta_1 $. Como isso é feito na regressão de Bayes?
Eu realmente luto muito aqui:
$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$
A probabilidade vem do conjunto de dados atual (portanto, é meu parâmetro de regressão, mas não como um valor único, mas como uma distribuição de probabilidade, certo?). Anterior vem de uma pesquisa anterior (digamos). Então, eu obtive esta equação:
$$ y = \ beta_1 x + \ varejpsilon $$
com $ \ beta_1 $ sendo minha probabilidade ou posterior (ou isso é totalmente errado)?
Eu simplesmente não consigo entender como a regressão padrão se transforma em uma de Bayes.
Resposta
Modelo de regressão linear simples
$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$
pode ser escrito em termos de modelo probabilístico por trás dele
$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$
ie a variável dependente $ Y $ segue a distribuição normal parametrizada pela média $ \ mu_i $, que é uma função linear de $ X $ parametrizada por $ \ alpha, \ beta $ e pelo desvio padrão $ \ sigma $. Se você estimar esse modelo usando mínimos quadrados ordinários , não precisa se preocupar com a formulação probabilística, porque está procurando por valores ótimos de $ \ alpha, \ beta $ parâmetros, minimizando os erros quadráticos de valores ajustados aos valores previstos. Por outro lado, você poderia estimar tal modelo usando estimativa de máxima verossimilhança , onde você estaria procurando por valores ótimos de parâmetros maximizando a função de verossimilhança
$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$
onde $ \ mathcal {N} $ é uma função de densidade da distribuição normal avaliada em $ y_i $ pontos, parametrizada por $ \ alpha + \ beta x_i $ e desvio padrão $ \ sigma $.
Na abordagem bayesiana, em vez de maximizar a função de verossimilhança sozinha, assumiríamos distribuições anteriores para os parâmetros e usaríamos o teorema de Bayes
$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$
A função de verossimilhança é igual à anterior, mas o que muda é que você assume algumas distribuições anteriores para os parâmetros estimados $ \ alpha, \ beta, \ sigma $ e inclua-os na equação
$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {probabilidade}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$
“Quais distribuições?” é uma pergunta diferente, pois há um número ilimitado de opções. Para os parâmetros $ \ alpha, \ beta $, você poderia, por exemplo, assumir distribuições normais parametrizadas por alguns hiperparâmetros ou $ t $ -distribution se você deseja assumir caudas mais pesadas, ou distribuição uniforme se você não quiser fazer muitas suposições, mas deseja assumir que os parâmetros podem ser a priori “qualquer coisa no intervalo dado”, etc. Para $ \ sigma $, você precisa assumir alguma distribuição anterior que é limitada a ser maior que zero, uma vez que o desvio padrão precisa ser positivo. Isso pode levar à formulação do modelo, conforme ilustrado abaixo por John K. Kruschke.
(fonte: http://www.indiana.edu/~kruschke/BMLR/ )
Enquanto na probabilidade máxima você estava procurando por um único valor ótimo para cada um dos parâmetros, na abordagem Bayesiana, aplicando o teorema de Bayes, você obtém a distribuição posterior dos parâmetros. A estimativa final dependerá das informações que vêm de seus dados e de seus anteriores , mas quanto mais informações estiverem contidas em seus dados, menos influente são priors .
Observe que ao usar priors uniformes, eles tomam a forma $ f (\ theta) \ propto 1 $ após eliminar as constantes de normalização. Isso torna o teorema de Bayes proporcional apenas à função de verossimilhança, de modo que a distribuição posterior atingirá seu máximo exatamente no mesmo ponto da estimativa de máxima verossimilhança.O que se segue, a estimativa sob priors uniformes será a mesma que usar mínimos quadrados ordinários, uma vez que minimizar os erros quadrados corresponde a maximizar a probabilidade normal .
Para estimar um modelo na abordagem bayesiana em alguns casos, você pode usar conjugado a priori , então o posterior a distribuição está disponível diretamente (veja o exemplo aqui ). No entanto, na grande maioria dos casos, a distribuição posterior não estará diretamente disponível e você terá que usar os métodos Markov Chain Monte Carlo para estimar os modelo (verifique este exemplo de usar o algoritmo Metropolis-Hastings para estimar parâmetros de regressão linear). Finalmente, se você estiver interessado apenas em estimativas pontuais de parâmetros, você pode usar estimativa máxima a posteriori , ou seja,
$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$
Para uma descrição mais detalhada da regressão logística, você pode verificar o Modelo logit bayesiano – explicação intuitiva? thread.
Para saber mais, você pode verificar os seguintes livros:
Kruschke, J. (2014). Fazendo análise de dados bayesiana: um tutorial com R, JAGS e Stan. Academic Press.
Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2004). Análise de dados bayesiana. Chapman & Hall / CRC.
Comentários
- +1 Dada a forma como a pergunta é formulada, eu ‘ d talvez enfatize um pouco mais esta diferença filosófica: Em mínimos quadrados ordinários e estimativa de máxima verossimilhança, estamos começando com a pergunta ” Quais são os melhores valores para $ \ beta_i $ (talvez para uso posterior )? ” , enquanto na abordagem Bayesiana completa, começamos com a pergunta ” O que podemos dizer sobre os valores desconhecidos $ \ beta_i $? ” e então talvez prossiga para usar o máximo a posteriori ou a média posterior se uma estimativa pontual for necessária.
- +1. Outra coisa que pode ser útil apontar para esclarecer a relação entre as abordagens bayesiana e OLS é que OLS pode ser entendido como média posterior sob um prior plano (pelo menos até onde eu entendo). Seria ótimo se você pudesse elaborar um pouco sobre isso em sua resposta.
- @amoeba it ‘ é um bom argumento, eu ‘ vou pensar sobre isso. Mas por outro lado, eu não ‘ não quero tornar a resposta abertamente longa, então vale a pena entrar em detalhes.
- @amoeba FYI, I adicionou um breve comentário sobre isso.
Resposta
Dado um conjunto de dados $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ onde $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, uma regressão linear Bayesiana modela o problema da seguinte maneira:
Anterior: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$
$ w $ é vetor $ (w_1, \ ldots, w_d) ^ T $, portanto, a distribuição anterior é uma gaussiana multivariada; e $ I_d $ é a matriz identidade $ d \ times d $.
Probabilidade: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$
Assumimos que $ Y_i \ perp Y_j | w, i \ neq j $
Por enquanto, usaremos a precisão em vez da variância, $ a = 1 / \ sigma ^ 2 $ e $ b = 1 / \ sigma_w ^ 2 $. Também assumiremos que $ a, b $ são conhecidos.
O anterior pode ser declarado como $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$
E a probabilidade $$ p (D | w) \ propto \ exp \ Big \ {- \ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$
onde $ y = (y_1, \ ldots, y_N) ^ T $ e $ A $ é uma matriz $ n \ vezes d $ onde o i -a linha é $ x_i ^ T $.
Então a posterior é $$ p (w | D) \ propto p (D | w) p (w) $$
Depois de muitos cálculos , descobrimos que
$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$
onde ($ \ Lambda $ é a matriz de precisão)
$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$
Observe que $ \ mu $ é igual a $ w_ {MAP} $ da regressão linear regular, isso porque para o gaussiano, a média é igual ao modo.
Além disso, podemos fazer alguma álgebra em $ \ mu $ e obter a seguinte igualdade ($ \ Lambda = a A ^ TA + bI_d $):
$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$
e compare com $ w_ {MLE} $:
$$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$
A expressão extra em $ \ mu $ corresponde à anterior. Isso é semelhante à expressão para a regressão de Ridge, para o caso especial quando $ \ lambda = \ frac {b} {a} $. A regressão de cume é mais geral porque a técnica pode escolher antecedentes impróprios (na perspectiva bayesiana).
Para a distribuição posterior preditiva:
$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$
é possível calcular que
$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$
Referência: Lunn et al. The BUGS Book
Para usar uma ferramenta MCMC como JAGS / Stan, verifique Kruschke “s Fazendo análise de dados bayesiana
Comentários
- Obrigado jpneto. Acho que essa é uma ótima resposta, mas não entendo ainda por causa da falta de matemática- conhecimento. Mas com certeza vou lê-lo novamente depois de adquirir algumas habilidades matemáticas
- Isso é muito bom, mas a suposição de que a precisão é conhecida é um pouco incomum. Isn ‘ é muito mais comum assumir uma distribuição Gama inversa para a variância, ou seja, uma distribuição Gama para a precisão?
- +1. Você pode comentar um pouco mais sobre ” A regressão de cume é mais geral porque a técnica pode escolher prioridades impróprias “? Eu não ‘ não entendo. Eu pensamento RR = Gaussiano (adequado) antes de $ w $.
- @amoeba: O prior Gaussiano é $ w \ sim N (0, \ lambda ^ {- 1} I_d) $ mas $ \ lambda $ posso ser zero que resulta em um prior impróprio, ou seja, resulta no MLE.
- @DeltaIV: claro, quando temos incerteza sobre um parâmetro podemos modelá-lo com um prior. A suposição de precisão conhecida é para tornar mais fácil encontrar uma solução analítica. Normalmente, essas soluções analíticas não são possíveis e devemos usar aproximações, como MCMC ou alguma técnica variacional.