무작위 샘플 $ \ lbrace x_n, y_n \ rbrace_ {n = 1} ^ N $이 있다고 가정합니다.
$$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$
및 $$ \ hat {y} _n = \ hat {\ beta} _0 + \ hat이라고 가정합니다. {\ beta} _1 x_n $$
$ \ beta_1 $와 $ \ hat {\ beta} _1 $의 차이점은 무엇인가요?
댓글
- $ \ beta $는 실제 계수이고 $ \ hat {\ beta} $는 $ \ beta $의 추정치입니다.
- Isn ' 이전 게시물과 중복되지 않습니까? 놀랄 것입니다 …
답변
$ \ beta_1 $은 아이디어입니다. 그러나 Gauss-Markov 가정이 유지된다면 $ \ beta_1 $는 잔차의 좋은 정규 가우스 분포를 형성하는 종속 변수에 수직 인 수직 “슬라이스”에서 위와 아래 값을 갖는 최적의 기울기를 제공합니다. $ \ hat \ beta_1 $은 표본을 기반으로 한 $ \ beta_1 $의 추정치입니다.
아이디어는 모집단의 표본으로 작업하는 것입니다. 표본은 데이터 클라우드를 형성합니다. 차원 중 하나는 종속 변수에 해당하고 오류 항을 최소화하는 선을 맞추려고합니다. OLS에서 이것은 모델 행렬의 열 공간에 의해 형성된 벡터 부분 공간에 대한 종속 변수의 투영입니다. 인구 매개 변수의 추정치는 $ \ hat \ beta $ 기호로 표시됩니다. 데이터 포인트가 많을수록 추정 계수가 더 정확하고 $ \ hat \ beta_i $가됩니다. 이상화 된 인구 계수 인 $ \ beta_i $의 추정치를 계산합니다.
다음은 파란색으로 표시된 인구와 인구간의 기울기 차이 ($ \ beta $ 대 $ \ hat \ beta $)입니다. 분리 된 검은 색 점으로 된 샘플 :
회귀선은 점선으로 검은 색으로 표시되는 반면, 종합적으로 완벽한 “인구”선은 파란색으로 표시됩니다. 풍부한 점은 잔차 분포의 정규성에 대한 촉각적인 감각을 제공합니다.
답변
" hat " 기호 는 일반적으로 true " 값. 따라서 $ \ hat {\ beta} $ 은 $ \ beta $ 의 추정치입니다. 몇 가지 기호에는 고유 한 규칙이 있습니다. 예를 들어 샘플 분산은 종종 가 아니라 $ s ^ 2 $ 로 작성됩니다. $ \ hat {\ sigma} ^ 2 $ , 일부 사람들은 편향된 추정과 편향되지 않은 추정을 구별하기 위해 둘 다 사용합니다.
특정 경우에는 $ \ hat {\ beta} $ 값은 선형 모델의 모수 추정치입니다. 선형 모델은 결과 변수 $ y $ 가 데이터 값 $ x_i $ 의 선형 조합에 의해 생성된다고 가정합니다. span>, 각각 해당하는 $ \ beta_i $ 값 (및 일부 오류 $ \ epsilon $ ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$
실제로는 물론 " true " $ \ beta $ 값은 일반적으로 알 수 없으며 존재하지 않을 수도 있습니다 (데이터가 선형 모델에 의해 생성되지 않았을 수 있음). 그럼에도 불구하고 데이터에서 $ y $ 에 가까운 값을 추정 할 수 있으며 이러한 추정치는 $ \ hat {\ beta로 표시됩니다. } $ .
답변
등식 $$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $
는 진정한 모델입니다. 이 방정식은 $ x $ 변수와 $ y $ 변수 사이의 관계를 $ y = \ beta_0 + \ beta_1x $ 행으로 설명 할 수 있음을 나타냅니다. 그러나 관찰 된 값은 오류로 인해 정확한 방정식을 따르지 않으므로 오류를 나타 내기 위해 $ \ epsilon_i $ 오류 항이 추가됩니다. 오류는 $ x $와 $ y $의 관계에서 벗어나는 자연스러운 편차로 해석 될 수 있습니다. 아래는 $ x $와 $ y $의 두 쌍을 보여줍니다 (검은 색 점은 데이터입니다). 일반적으로 $ x $가 증가하면 $ y $가 증가 함을 알 수 있습니다. 두 쌍 모두에 대해 실제 방정식은 $$ y_i = 4 + 3x_i + \ epsilon_i $$이지만 두 플롯에는 서로 다른 오류가 있습니다. 왼쪽 플롯에는 큰 오차가 있고 오른쪽 플롯에는 작은 오차가 있습니다 (포인트가 더 좁기 때문에). (내가 데이터를 직접 생성했기 때문에 실제 방정식을 알고 있습니다. 일반적으로 실제 방정식은 알 수 없습니다.)
왼쪽의 플롯을 보겠습니다. 진정한 $ \ beta_0 = 4 $ 및 진정한 $ \ beta_1 $ = 3.하지만 실제로는 데이터가 주어 졌을 때 진실을 알지 못합니다. 따라서 우리는 진실을 추정 합니다. $ \ beta_0를 추정합니다. $ with $ \ hat {\ beta} _0 $ 및 $ \ beta_1 $ with $ \ hat {\ beta} _1 $. 사용되는 통계 방법에 따라 추정치는 매우 다를 수 있습니다. 회귀 설정에서 추정치는 다음과 같습니다. Ordinary Least Squares라는 방법을 통해 얻을 수 있습니다. 이것은 또한 최적의 선 방법으로도 알려져 있습니다. 기본적으로 데이터에 가장 잘 맞는 선을 그려야합니다. 여기서는 공식에 대해 논의하지 않고 OLS의 공식을 사용합니다.
$$ \ hat {\ beta} _0 = 4.809 \ quad \ text {and} \ quad \ hat {\ beta} _1 = 2.889 $$
간단한 예입니다. 엄마와 딸의 키의 관계. $ x = $ 엄마의 키와 $ y $ = 딸의 키. (유전 적 유사성으로 인해) 키가 큰 딸을 낳습니다. 그러나 하나의 방정식이 엄마와 딸의 키를 정확히 요약 할 수 있으므로 엄마의 키를 안다면 딸의 정확한 키를 예측할 수 있다고 생각하십니까? 아니요. 반면에 평균적으로 문을 사용하여 관계를 요약 할 수 있습니다.
TL DR : $ \ beta $는 인구의 진실입니다. $ y $와 $ x $ 사이의 알 수없는 관계를 나타냅니다. $ y $ 및 $ x $의 가능한 모든 값을 항상 얻을 수는 없기 때문에 모집단에서 표본을 수집하여 추정 $ \ beta $ 데이터를 사용합니다. $ \ hat {\ beta} $은 추정치입니다. 데이터의 기능입니다. $ \ beta $는 데이터의 함수가 아니라 사실입니다.