Bayes 회귀 : 표준 회귀와 비교하여 어떻게 수행됩니까?

베이지안 회귀에 대해 몇 가지 질문이 있습니다.

  1. 표준 회귀를 $ y = \ beta_0로 지정했습니다. + \ beta_1 x + \ varepsilon $. 이것을 베이지안 회귀로 변경하려면 $ \ beta_0 $ 및 $ \ beta_1 $에 대한 사전 분포가 필요합니까 (또는이 방식으로 작동하지 않습니까)?

  2. 표준 회귀에서 $ \ beta_0 $ 및 $ \ beta_1 $에 대한 단일 값을 얻기 위해 잔차를 최소화하려고합니다. Bayes 회귀에서는 어떻게 수행됩니까?


정말 힘들어합니다.

$$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$

가능성은 현재 데이터 세트입니다 (따라서 내 회귀 매개 변수이지만 단일 값이 아니라 우도 분포, 맞습니까?). 이전 연구에서 나온 것입니다 (예를 들어). 그래서 다음 방정식을 얻었습니다.

$$ y = \ beta_1 x + \ varepsilon $$

with $ \ beta_1 $ 내 가능성 또는 사후 (또는 이것은 완전히 잘못된 것입니까)입니까?

표준 회귀가 어떻게 베이 즈 회귀로 변환되는지 이해할 수 없습니다.

답변

단순 선형 회귀 모델

$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$

작성 가능 배후의 확률 모델 측면에서

$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$

ie 종속 변수 $ Y $는 $ \ alpha, \ beta $ 및 표준 편차 $ \ sigma $로 매개 변수화 된 $ X $의 선형 함수 인 평균 $ \ mu_i $로 매개 변수화 된 정규 분포를 따릅니다. 보통 최소 제곱 을 사용하여 이러한 모델을 추정하는 경우 $ \ alpha, \의 최적 값을 검색하므로 확률 적 공식에 대해 신경 쓸 필요가 없습니다. 예측값에 대한 적합치의 제곱 오차를 최소화하여 베타 $ 매개 변수. 다른 한편으로, 최대 우도 추정 을 사용하여 이러한 모델을 추정 할 수 있습니다. 여기서 우도 함수를 최대화하여 최적의 매개 변수 값을 찾을 수 있습니다.

$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alpha, \, \ beta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$

여기서 $ \ mathcal {N} $는 $ \ alpha + \ beta를 통해 매개 변수화 된 $ y_i $ 포인트에서 평가 된 정규 분포의 밀도 함수입니다. x_i $ 및 표준 편차 $ \ sigma $.

우도 함수 만 최대화하는 대신 베이지안 접근 방식에서는 매개 변수에 대해 사전 분포를 가정하고 베이 즈 정리를 사용합니다.

$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$

우도 함수는 위와 동일하지만 일부 사전 분포를 가정하면 변경됩니다. 추정 된 매개 변수 $ \ alpha, \ beta, \ sigma $에 대해 방정식에 포함

$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ mid Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {likelihood}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$

“무엇 배포판?”은 선택의 수에 제한이 없기 때문에 다른 질문입니다. 예를 들어 $ \ alpha, \ beta $ 매개 변수의 경우 일부 초 매개 변수 또는 $ t $ -distribution (무거운 꼬리를 가정하려는 경우) 또는 많은 가정을하지 않으려는 경우 균일 한 분포를 가정하지만 매개 변수가 선험적 일 수 있다고 가정하려는 경우 “주어진 범위의 모든 것”등. $ \ sigma $의 경우 표준 편차가 양수 여야하므로 0보다 큰 경계가있는 일부 이전 분포를 가정해야합니다. 이것은 John K. Kruschke에 의해 아래에 설명 된 모델 공식화로 이어질 수 있습니다.

베이지안 선형 회귀 모델 공식

div>“> </p>
<p> (출처 : <a href= http://www.indiana.edu/~kruschke/BMLR/ )

최대 가능성에서 각 매개 변수에 대해 단일 최적 값을 찾고 있었지만 Bayes 정리를 적용하여 Bayesian 접근법에서는 매개 변수의 후방 분포를 얻습니다. 최종 추정치는 데이터와 이전 에서 가져온 정보에 따라 달라 지지만 데이터에 포함 된 정보가 많을수록 영향력이 적습니다. 사전 입니다.

균일 사전을 사용할 때 정규화 상수를 삭제 한 후 $ f (\ theta) \ propto 1 $ 형식을 취합니다. 이것은 베이 즈 정리를 우도 함수에만 비례하게하므로 사후 분포는 최대 우도 추정치와 정확히 동일한 지점에서 최대 값에 도달합니다.다음은 제곱 오류를 최소화하는 것이 정상 가능성을 최대화하는 것과 일치 하기 때문에 균일 사전 하의 추정치는 일반 최소 제곱을 사용하는 것과 동일합니다.

경우에 따라 베이지안 접근 방식으로 모델을 추정하려면 공액 사전 을 사용할 수 있으므로 후방 배포는 직접 사용할 수 있습니다 ( 여기에서 예 참조). 그러나 대부분의 경우 사후 배포는 직접 사용할 수 없으며 Markov Chain Monte Carlo 방법을 사용하여 모델 (Metropolis-Hastings 알고리즘을 사용하여 선형 회귀 매개 변수를 추정하는 이 예 확인). 마지막으로 매개 변수의 포인트 추정에만 관심이있는 경우 최대 사후 추정 을 사용할 수 있습니다. 즉

$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ mid Y, X) $$

로지스틱 회귀에 대한 자세한 설명은 베이지안 로짓 모델-직관적 인 설명? 스레드.

자세한 내용은 다음 책에서 확인할 수 있습니다.

Kruschke, J. (2014). 베이지안 데이터 분석 수행 : R, JAGS 및 Stan을 사용한 자습서 Academic Press.

Gelman, A., Carlin, JB, Stern, HS 및 Rubin, DB (2004). 베이지안 데이터 분석. Chapman & Hall / CRC.

댓글

  • +1 질문이 기술 된 방식을 고려할 때 ' 약간 강조 할 수 있습니다. 더 많은이 철학적 차이 : 일반적인 최소 제곱 및 최대 가능성 추정에서 우리는 " $ \ beta_i $의 가장 좋은 값은 무엇입니까 (나중에 사용하기 위해 )? " 반면 전체 베이지안 접근 방식에서는 " 무엇을 말할 수 있습니까? 알 수없는 값 $ \ beta_i $? " 그런 다음 포인트 추정이 필요한 경우 최대 사후 또는 사후 평균을 사용할 수 있습니다.
  • +1. 베이지안 접근법과 OLS 접근법 사이의 관계를 명확히하기 위해 지적하는 데 유용한 한 가지 더는 OLS가 평평한 사전 (적어도 내가 이해하는 한)에서 사후 평균으로 이해할 수 있다는 것입니다. 답변에서 조금 더 자세히 설명해 주시면 좋을 것입니다.
  • @amoeba it ' 좋은 지적입니다. ' 생각할 것입니다. 그러나 다른 한편으로는 ' 명백하게 긴 답변을하고 싶지 않기 때문에 세부 사항으로 이동해야합니다.
  • @amoeba FYI, I 이에 대한 간단한 설명을 추가했습니다.

답변

데이터 세트 $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ 여기서 $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, 베이지안 선형 회귀는 다음과 같은 방식으로 문제를 모델링합니다.

이전 : $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$

$ w $는 벡터 $ (w_1, \ ldots, w_d) ^ T $, 따라서 이전 분포는 다변량 가우시안입니다. $ I_d $는 $ d \ times d $ 단위 행렬입니다.

가능성 : $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$

우리는 $ Y_i \ perp Y_j | w, i \ neq j $

지금은 분산 대신 정밀도를 사용합니다. $ a = 1 / \ sigma ^ 2 $ 및 $ b = 1 / \ sigma_w ^ 2 $. 또한 $ a, b $가 알려져 있다고 가정합니다.

사전은 $$ p (w) \ propto \ exp \ Big \ {-\ frac {b} {2} w ^ tw \ Big \} $$

그리고 가능성 $$ p (D | w) \ propto \ exp \ Big \ {-\ frac {a} {2} (y-Aw) ^ T (y-Aw) \ Big \} $$

여기서 $ y = (y_1, \ ldots, y_N) ^ T $ 및 $ A $는 $ n \ times d $ 행렬입니다. -번째 행은 $ x_i ^ T $입니다.

그 다음 사후는 $$ p (w | D) \ propto p (D | w) p (w) $$

많은 계산 끝에

$$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {-1}) $$

여기서 ($ \ Lambda $는 정밀도 행렬)

$$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {-1} A ^ T y $$

$ \ mu $는 정규 선형 회귀의 $ w_ {MAP} $와 같습니다. Gaussian의 경우 평균은 모드와 같습니다.

또한 $ \ mu $에 대한 대수를 만들어 다음과 같은 등식을 얻을 수 있습니다 ($ \ Lambda = a A ^ TA + bI_d $) :

$$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {-1} A ^ T y $$

$ w_ {MLE} $와 비교 :

$$ w_ {MLE} = (A ^ TA) ^ {-1} A ^ T y $$

$ \ mu $의 추가 표현식은 사전에 해당합니다. 이는 $ \ lambda = \ frac {b} {a} $ 인 특수한 경우에 대한 Ridge 회귀 표현식과 유사합니다. 기술이 부적절한 사전을 선택할 수 있기 때문에 능선 회귀는 더 일반적입니다 (베이 즈 관점에서).

예측 사후 분포 :

$$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$

계산이 가능합니다

$$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {-1} x) $$

참조 : Lunn et al. The BUGS Book

JAGS / Stan check Kruschke “s 베이지안 데이터 분석 수행

댓글

  • jpneto 감사합니다. 좋은 답변이라고 생각하지만 수학 부족으로 아직 이해가되지 않습니다. 하지만 수학 실력을 습득 한 후에 반드시 다시 읽을 것입니다.
  • 매우 좋지만 정밀도를 알고 있다는 가정은 흔하지 않습니다. Isn ' 분산에 대한 역 감마 분포, 즉 정밀도에 대한 감마 분포를 가정하는 것이 훨씬 더 일반적이지 않습니까?
  • +1. Ridge 회귀는 기술이 부적절한 사전을 선택할 수 있으므로 " 더 일반적입니까? ' 알 수 없습니다. $ w $ 이전에 RR = Gaussian (적절한)이라고 생각했습니다.
  • @amoeba : Gaussian 사전은 $ w \ sim N (0, \ lambda ^ {-1} I_d) $이지만 $ \ lambda $입니다. 할 수있다 부적합한 사전을 초래하는 0이됩니다. 즉, MLE가됩니다.
  • @DeltaIV : 매개 변수에 대한 불확실성이있을 때 사전으로 모델링 할 수 있습니다. 알려진 정밀도의 가정은 분석 솔루션을 더 쉽게 찾을 수 있도록하는 것입니다. 일반적으로 이러한 분석 솔루션은 불가능하며 MCMC 또는 일부 변형 기법과 같은 근사치를 사용해야합니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다