Bayes 위험 이해

추정기를 평가할 때 가장 일반적으로 사용되는 두 가지 기준은 최대 위험과 Bayes 위험입니다. 내 질문은 후자를 참조합니다.

이전 $ \ pi $ 하의 베이 즈 리스크는 다음과 같이 정의됩니다 :

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

이전 $ \ pi $이 무엇을하는지 잘 모르겠습니다. 그리고 그것을 해석하는 방법. 위험 함수 $ R (\ theta, \ hat {\ theta}) $가 있고 그것을 도표화한다면, 직감적으로 그 영역을 위험이 얼마나 “강한 지”를 판단하는 기준으로 삼을 것입니다. $ \ theta $의 모든 가능한 값입니다.하지만 사전을 포함하면이 직관이 다시 파괴되지만 유사합니다. 누군가 사전 해석 방법을 도와 줄 수 있나요?

댓글

  • 여러 매개 변수를 고려할 때 위험 함수를 얼마나 직관적으로 플로팅 할 수 있는지 알 수 없습니다. 해당 설정에서 함수가 교차하고 " 최고를 식별하지 않습니다. div id = “f9dbb025bc”>

추정기. Bayes 위험은 추정기에 대해 하나의 단일 숫자를 반환하므로 모든 추정치의 순위를 지정할 수 있습니다. tors.

답변

[다음은 제 교과서에서 발췌 한 것입니다. 베이지안 선택 (2007) 은 베이지안 분석에 대한 의사 결정 이론적 접근 방식을 선호하므로 베이지안 위험을 사용합니다.]

가장 사소한 설정을 제외하고 $ \ theta $를 알 수없는 경우 손실 함수 $ \ text {L} (\ theta, d) $를 균일하게 최소화 ($ d $ 단위)하는 것은 일반적으로 불가능합니다. 손실 함수에서 효과적인 비교 기준을 도출하기 위해 frequentist 접근 방식은 대신 평균 손실 (또는 frequentist 리스크 )을 고려하도록 제안합니다. \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} 여기서 $ \ delta (x) $는 결정 규칙, 즉 각 결과에 대한 결정 할당 $ x \ 임의 실험의 sim f (x | \ theta) $.

$ \ mathfrak {D} $의 $ {\ mathcal X} $에서 함수 $ \ delta $는 일반적으로 estimator ($ \ delta (x) $ 값을 $ \ theta $의 estimate 라고합니다). 혼동의 위험이없는 경우에는 추정치 세트를 $ \ mathfrak {D} $로 표시합니다.

빈도주의 패러다임 은이 기준에 따라 추정치를 비교하고, 가능한 경우 최선의 추정자를 선택하기 위해 추정자는 $ \ theta $ 매개 변수의 가능한 모든 값에 대해 장기적인 성과에 대해 평가됩니다. 그러나이 방법과 관련된 몇 가지 어려움이 있습니다.

  1. 오류 (손실)는 밀도 $ f (x | \ theta)에 비례하여 $ x $의 다른 값에 대해 평균화됩니다. ) $. 따라서 관찰 $ x $는 더 이상 고려되지 않는 것으로 보입니다. 위험 기준은 주어진 관측치 $ x $에 대해 직접적으로가 아니라 장기 성과에 대한 절차를 평가합니다. 이러한 평가는 통계 학자에게는 만족 스러울 수 있지만 다른 사람의 데이터가 아닌 $ x $에 대한 최적의 결과를 원하는 클라이언트에게는 그다지 매력적이지 않습니다!
  2. 결정 문제는 주파수 평가가 이해하기 위해이 문제가 반복해서 충족 될 것이라고 암시 적으로 가정합니다. 사실 $ R (\ theta, \ delta) $는 동일한 실험의 iid 반복에 대한 대략적인 평균 손실입니다. 큰 숫자의 법칙 그러나 철학적, 실제적 측면에서 실험의 반복성에 대한 많은 논란이 있습니다 (Jeffreys (1961) 참조). 한 가지로, 통계 학자에게 새로운 관찰이 오면 그녀는 예를 들어 의료 실험에서와 같이 실험이 수행되는 방식을 수정할 수 있습니다.
  3. 시술 $ \ delta $의 경우 위험 $ R (\ theta, \ delta ) $는 $ \ theta $ 매개 변수의 함수입니다. 따라서 빈도 주의적 접근 방식은 전체 orde를 유도하지 않습니다. 일련의 절차에 대한 링. 두 개의 교차 위험 함수가 해당 추정자 간의 비교를 방해하기 때문에 의사 결정 절차를이 기준과 비교하는 것은 일반적으로 불가능합니다. 기껏해야 $ R (\ theta, \ delta) $를 균일하게 최소화하는 $ \ delta_0 $ 절차를 기대할 수 있지만 이러한 경우는 의사 결정 절차의 공간이 제한되지 않는 한 거의 발생하지 않습니다. 최상의 절차는 승인 된 절차 집합을 인위적으로 제한해야만 얻을 수 있습니다.

예 2.4- $ x_1 $ 및 $ x_2 $, $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0.5, \ qquad의 두 가지 관측치를 고려하십시오. \ theta \ in \ mathbb {R}. $$ 관심있는 매개 변수는 $ \ theta $입니다 (예 :, $ \ mathfrak {D} = \ Theta $) 그리고 손실 $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\에서 추정자 $ \ delta $에 의해 추정됩니다. theta} (\ delta), $$는 종종 $ 0-1 $ 손실 이라고 불리며, 규모에 관계없이 추정 오류에 $ 1 $ 벌점을 부과합니다. 특정 \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2}, $$ 위험 함수는 \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0.5. \ end {eqnarray *}이 계산은 추정기 $ \ delta_0 $가 절반의 시간 동안 정확하다는 것을 보여줍니다. 사실,이 추정치는 $ x_1 \ ne x_2 $ 일 때 항상 정확하고 그렇지 않으면 항상 틀립니다. 이제 \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $은 $ \ delta_2 (x_1, x_2) = x_2-1 $처럼 $ 0.5 $와 같은 위험 함수를 갖습니다. 따라서 $ \ delta_0 $, $ \ delta_1 $ 및 $ \ delta_2 $는 $ 0-1 $ 손실로 순위를 매길 수 없습니다. $ \ blacktriangleright $

반대로, 결정 이론에 대한 베이지안 접근 방식은 $ {\ cal X} $ 공간을 통합하는 대신 $ \ theta $를 알 수 없기 때문에 $ \ Theta $ 공간에 통합합니다. $ x $가 알려져 있습니다. 후방 예상 손실 \ begin {eqnarray *} \ rho (\ pi, d | x) & = \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *}에 따라 오류 (즉, 손실)의 평균을 구합니다. 매개 변수 $ \ theta $의 사후 분포, 조건부로 관찰 된 값} $ x $. $ x $가 주어지면 $ d $ 결정으로 인한 평균 오류는 실제로 $ \ rho (\ pi, d | x) $입니다. 따라서 사후 기대 손실은 $ x $의 함수이지만, $ \ theta $와는 달리 $ x $가 알려져 있기 때문에 매개 변수에 대한 위험의 빈도 주의적 의존성과는 달리이 의존성은 문제가되지 않습니다.

댓글

  • 당신은 Christian Robert입니다. 조지 카셀라를 만났습니다. 내가 아는 책을 그와 함께 출판 한 것 같습니다.
  • +1 답변은 ' 그보다 훨씬 나아지지 않습니다. 훌륭한 책 참고로

답변

James O의 고전적인 통계적 결정 이론 인용 . Berger :

[…] 우리는 이미 결정 규칙이 위험 함수 측면에서 평가 될 것이라고 밝혔습니다. $ R (\ theta, \ 델타) $. […] 앞서 지적했듯이 문제는 다른 허용 가능한 결정 규칙이 다른 $ \ theta $ “s에 대해 더 나은 위험을 가질 것이라는 것입니다. 구출하기 위해 이전 $ \ pi (\ theta) $가 있습니다. 아마도 $ \ theta $ “가”가능성 “이 발생할 가능성을 반영합니다. $ R (\ theta, \ delta) $를 $ \ pi (\ theta) $ 및 평균으로 “가중치”하는 것이 매우 합리적입니다.

예 각 $ \ theta $에 대해 $ R (\ theta, \ delta) $를 평가할 수 있지만 $ \ theta $의 가능한 각 값이 동일 할 가능성이 있다고 암시 적으로 가정합니다. 베이지안 시나리오에서는 다른 $ \ theta $ “를 관찰 할 확률을 반영하는 이전 $ \ pi (\ theta) $를 선택하고 이러한 정보를 포함합니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다