相関係数は回帰勾配(ベータ)と同じであると予想していましたが、2つを比較しただけでは異なります。それらはどのように異なりますか?どのような異なる情報を提供しますか?
コメント
- 正規化されている場合、それらは同じです。しかし、単位を変更するとどうなるか考えてみてください…
- このQ に対する最高得点の答えだと思います(そしておそらく my A ここで、相関係数は、xでyを回帰した場合に得られる2つの勾配の幾何平均の絶対値として見ることができることを示しています。とxon y)もここで関連します
回答
あなたが単純なことについて話していると仮定します回帰モデル$$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$は最小二乗法で推定され、ウィキペディアからが$$ \ hat {\ beta } = {\ rm cor}(Y_i、X_i)\ cdot \ frac {{\ rm SD}(Y_i)} {{\ rm SD}(X_i)} $$したがって、2つは$ {\ rmSD}の場合にのみ一致します。 (Y_i)= {\ rm SD}(X_i)$。つまり、ある意味で2つの変数が同じスケールである場合にのみ一致します。これを実現する最も一般的な方法は、@ gungで示されるように標準化することです。 。
2つある意味では同じ情報が得られます。それぞれが、$ X_i $と$ Y_i $の間の linear 関係の強さを示しています。 。ただし、それぞれが異なる情報を提供します(もちろん、まったく同じ場合を除く)。
-
相関により、独立して解釈できる有界測定値が得られます。 2つの変数のスケール。推定された相関が$ \ pm 1 $に近いほど、 2つは完全な線形関係に近くなります。回帰勾配は、単独では、その情報を示していません。
-
回帰勾配は、$ X_i $の特定の値に対する$ Y_i $の期待値の推定変化として解釈される有用な量を示します。具体的には、$ \ hat \ beta $は、$ X_i $の1単位の増加に対応する$ Y_i $の期待値の変化を示します。この情報は、相関係数だけから推測することはできません。
コメント
- この回答の結果として、yに対するxの回帰は回帰の逆ではないことに注意してください。 y対x!
回答
単純な線形回帰(つまり、1つの共変量のみ)を使用すると、傾き$ \ beta_1 $は、両方の変数が最初に標準化された場合、ピアソンの$ r $と同じです(詳細については、私の答えをここで見つけることができます。 役立ちます。)重回帰を行う場合、多重共線性などのためにこれはより複雑になる可能性があります。
コメント
- 単純な線形回帰では、マクロが上に示すように、$ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $です。重回帰の類似式?'がivid = “44111f95e7″で取得している理由から、'がないようです。 >
multicollinearity、"しかし、私はここで本当に共分散を意味していると思いますか?
回答
相関係数は、線形関係の「気密性」を測定します2つの変数の間で、-1から1までの範囲に制限されます。ゼロに近い相関は変数間の線形関連がないことを表し、-1または+1に近い相関は強い線形関係を示します。 直感的には、散布図を介して最適な線を描くのが簡単であるほど、それらの相関性が高くなります。
回帰勾配は、の「急勾配」を測定します。 2つの変数間の線形関係のであり、$-\ infty $から$ + \ infty $までの任意の値を取ることができます。ゼロに近い勾配は、予測子(X)変数が変化するにつれて応答(Y)変数がゆっくりと変化することを意味します。ゼロからさらに離れた(負または正の方向の)勾配は、予測子が変化するにつれて応答がより急速に変化することを意味します。 直感的に、散布図を介して最適な線を描画する場合、勾配が急であるほど、勾配はゼロから遠くなります。
したがって、相関係数と回帰勾配は同じ符号(+または-)でなければなりませんが、同じ値になることはほとんどありません。
簡単にするために、この回答は単純な線形回帰を想定しています。
コメント
- ベータは$-\ inf、\ infにある可能性があることを示します$ですが、' xとyの分散の比率によって示される、ベータにケースバイケースの限界はありませんか?
回答
ピアソンの相関係数は無次元であり、入力変数の次元とスケールに関係なく、-1から1の間でスケーリングされます。
(たとえば)質量をグラムまたはキログラムで入力した場合、$ r $の値に違いはありませんが、これは勾配/勾配(寸法があり、それに応じてスケーリングされます…)に大きな違いをもたらします。同様に、代わりにポンドやトンを使用するなど、何らかの方法でスケールを調整しても、$ r $に違いはありません。
簡単なデモンストレーション(Pythonを使用してお詫びします!):
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
は、勾配が1倍に増加したにもかかわらず、$ r = 0.969363 $であることを示しています。 10。
「$ r $が-1から1の間でスケーリングされるようになるという巧妙なトリック(分子が分母よりも絶対値を大きくすることはできない場合の1つ)」と告白する必要があります。
@Macroで詳しく説明したように、傾き$ b = r(\ frac {\ sigma_ {y}} {\ sigma_ {x}})$なので、ピアソンの$ rを直感的に理解できます。 $は勾配に関連していますが、標準偏差に従って調整された場合のみです(これにより、寸法とスケールが効果的に復元されます!)。
最初は、式が緩くフィットした線($ r $が低い)がより低い勾配をもたらすことを示唆しているように見えるのは奇妙だと思いました。次に、例をプロットし、勾配が与えられた場合、「緩み」を変えると$ r $が減少するが、これは$ \ sigma_ {y} $の比例した増加によって相殺されることに気付きました。
グラフ以下に、4つの$ x、y $データセットをプロットします。
- $ y = 3x $の結果(つまり、勾配$ b = 3 $、$ r = 1 $、$ \ sigma_ {x } = 2.89 $、$ \ sigma_ {y} = 8.66 $)… $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- 同じですが、 $ r = 0.2447 $、$ \ sigma_ {x} = 2.89 $、$ \ sigma_ {y} = 34.69 $の乱数で変化し、そこから$ b = 2.94 $
- を計算できます。 $ y = 15x $(つまり、$ b = 15 $および$ r = 1 $、$ \ sigma_ {x} = 0.58 $、$ \ sigma_ {y} = 8.66 $)
- (と同じ2)ただし、範囲が$ x $に縮小されているため、$ b = 14.70 $(それでも$ r = 0.2447 $、$ \ sigma_ {x} = 0.58 $、$ \ sigma_ {y} = 34.69 $)
分散は、必ずしも$に影響を与えるのではなく、$ r $に影響を与えることがわかります。 b $、および測定単位は、$ r $に影響を与えることなく、スケール、したがって$ b $に影響を与える可能性があります