$ \ beta_1 $と$ \ hat {\ beta} _1 $の違いは何ですか?

ランダムサンプル$ \ lbrace x_n、y_n \ rbrace_ {n = 1} ^ N $があるとします。

$$ y_n = \ beta_0 + \ beta_1 x_n + \ varepsilon_n $$

および$$ \ hat {y} _n = \ hat {\ beta} _0 + \ hatと仮定します{\ beta} _1 x_n $$

$ \ beta_1 $と$ \ hat {\ beta} _1 $の違いは何ですか?

コメント

  • $ \ beta $は実際の係数であり、$ \ hat {\ beta} $は$ \ beta $の推定量です。
  • Isn 'これは以前の投稿の複製ですか?びっくりします…

回答

$ \ beta_1 $はアイデアです-そうではありません実際には実際に存在します。しかし、ガウス-マルコフの仮定が成り立つ場合、$ \ beta_1 $は、従属変数に垂直な垂直「スライス」上でその上下の値を持つ最適な勾配を与え、残差の正規ガウス分布を形成します。 $ \ hat \ beta_1 $は、サンプルに基づく$ \ beta_1 $の推定値です。

アイデアは、母集団からのサンプルを操作しているということです。サンプルは、データクラウドを形成します。次元の1つが従属変数に対応し、誤差項を最小化する線を近似しようとします-OLSでは、これはモデル行列の列空間によって形成されるベクトル部分空間への従属変数の射影です。これらは人口パラメーターの推定値は、$ \ hat \ beta $記号で示されます。データポイントが多いほど、推定係数、$ \ hat \ beta_i $、および賭けの精度が高くなります。これらの理想化された人口係数の推定後、$ \ beta_i $。

ここに、青色の「人口」との傾きの違い($ \ beta $と$ \ hat \ beta $)があります。孤立した黒い点のサンプル:

ここに画像の説明を入力

回帰直線は点線で黒で示されていますが、合成的に完全な「母集団」の直線は青一色です。ポイントの豊富さは、残差分布の正規性の触覚を提供します。

回答

" hat "記号は通常、 true "の値。したがって、 $ \ hat {\ beta} $ $ \ beta $ の見積もりです。いくつかのシンボルには独自の規則があります。たとえば、サンプルの分散は、ではなく、 $ s ^ 2 $ として記述されることがよくあります。 $ \ hat {\ sigma} ^ 2 $ ですが、偏った推定値と偏りのない推定値を区別するために両方を使用する人もいます。

特定のケースでは、 $ \ hat {\ beta} $ の値は、線形モデルのパラメーター推定値です。線形モデルでは、結果変数 $ y $ がデータ値 $ x_i $ は、それぞれ対応する $ \ beta_i $ 値(およびエラー $ \ epsilon $ )で重み付けされています。 ) $$ y = \ beta_0 + \ beta_1x_1 + \ beta_2 x_2 + \ cdots + \ beta_n x_n + \ epsilon $$

実際には、もちろん、" true " $ \ beta $ の値は通常です不明であり、存在すらしない可能性があります(おそらくデータは線形モデルによって生成されません)。それでも、 $ y $ に近いデータから値を推定することができ、これらの推定値は $ \ hat {\ betaとして示されます。 } $

回答

方程式$$ y_i = \ beta_0 + \ beta_1 x_i + \ epsilon_i $ $

は、真のモデルと呼ばれるものです。この方程式は、変数$ x $と変数$ y $の関係は、線$ y = \ beta_0 + \ beta_1x $で説明できることを示しています。ただし、観測値は(エラーのために)その正確な方程式に従うことは決してないため、エラーを示すために追加の$ \ epsilon_i $エラー項が追加されます。エラーは、$ x $と$ y $の関係からの自然な偏差として解釈できます。以下に、$ x $と$ y $の2つのペアを示します(黒い点はデータです)。一般に、$ x $が増加すると$ y $が増加することがわかります。両方のペアについて、真の方程式は$$ y_i = 4 + 3x_i + \ epsilon_i $$ですが、2つのプロットの誤差は異なります。左側のプロットには大きなエラーがあり、右側のプロットには小さなエラーがあります(ポイントがよりタイトであるため)。 (自分でデータを生成したので、真の方程式を知っています。一般に、真の方程式を知ることはできません) ここに画像の説明を入力してください

左側のプロットを見てみましょう。真の$ \ beta_0 = 4 $および真の$ \ beta_1 $ = 3。しかし実際には、データが与えられたとき、私たちは真実を知りません。したがって、真実を推定します。$ \ beta_0を推定します。 $ with $ \ hat {\ beta} _0 $および$ \ beta_1 $と$ \ hat {\ beta} _1 $。使用する統計手法に応じて、推定値は大きく異なる可能性があります。回帰設定では、推定値は次のようになります。通常の最小二乗法と呼ばれる方法で得られます。これは最適な線の方法としても知られています。基本的には、データに最適な線を引く必要があります。ここでは式については説明しませんが、OLSの式を使用します。

$$ \ hat {\ beta} _0 = 4.809 \ quad \ text {および} \ quad \ hat {\ beta} _1 = 2.889 $$

と結果が得られます最適な行は、 ここに画像の説明を入力

簡単な例は次のとおりです。母と娘の身長の関係$ x = $母の身長、$ y $ =娘の身長としましょう。当然、背の高い母親が期待されます。背の高い娘がいること(遺伝的類似性のため)。ただし、1つの方程式で母と娘の身長を正確に要約できると思います。そのため、母の身長がわかれば、娘の正確な身長を予測できます。いいえ。一方、平均的なステートメントでを使用して関係を要約できる場合があります。

TL DR:$ \ beta $は人口の真実です。これは、$ y $と$ x $の間の未知の関係を表しています。 $ y $と$ x $のすべての可能な値を常に取得できるとは限らないため、母集団からサンプルを収集し、推定 $ \ beta $データを使用します。 $ \ hat {\ beta} $は私たちの見積もりです。これはデータの関数です。 $ \ beta $はデータの関数ではなく、真実です。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です