상관 계수가 회귀 기울기 (베타)와 같을 것으로 예상했지만 둘을 방금 비교 한 결과 서로 다릅니다. 어떻게 다른가요?
댓글
- 정규화 된 경우 동일합니다. 하지만 단위를 변경하면 어떻게되는지 생각해보세요 …
- 이 Q 에 대한 최고 점수 답변은 my A 여기에서 상관 계수는 x에서 y를 회귀하면 얻은 두 기울기의 기하학적 평균의 절대 값으로 볼 수 있음을 보여줍니다. 및 x on y)도 여기에서 관련이 있습니다.
답변
단순한 회귀 모델 $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$는 최소 제곱으로 추정됩니다. 위키피디아에서 를 통해 $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ 따라서 둘은 $ {\ rm SD} 일 때만 일치합니다. (Y_i) = {\ rm SD} (X_i) $. 즉, 두 변수가 어떤 의미에서 같은 척도에있을 때만 일치합니다.이를 달성하는 가장 일반적인 방법은 @gung에 표시된대로 표준화를 통해 이루어집니다. .
두 가지, s ome sense는 동일한 정보를 제공합니다. 각각 $ X_i $와 $ Y_i $ 사이의 선형 관계의 강도를 알려줍니다. . 그러나 각각은 고유 한 정보를 제공합니다 (물론 정확히 동일한 경우 제외).
-
상관 관계는 독립적으로 해석 될 수있는 경계 측정을 제공합니다. 두 변수의 척도. 추정 된 상관 관계가 $ \ pm 1 $에 가까울수록 둘이 완벽한 선형 관계에 가까울수록 . 회귀 기울기는 분리 된 상태에서 해당 정보를 알려주지 않습니다.
-
회귀 기울기는 주어진 $ X_i $ 값에 대해 예상되는 $ Y_i $ 값의 예상 변화로 해석되는 유용한 양을 제공합니다. 특히 $ \ hat \ beta $는 $ X_i $의 1 단위 증가에 해당하는 $ Y_i $의 예상 가치의 변화를 알려줍니다. 이 정보는 상관 계수만으로 추론 할 수 없습니다.
댓글
- 이 답변의 결과로, y에 대한 x를 회귀하는 것은 회귀의 역이 아닙니다. y 대 x!
답변
단순 선형 회귀 (즉, 공변량 1 개만)의 기울기는 $ 두 변수가 먼저 표준화 된 경우 \ beta_1 $은 Pearson의 $ r $와 동일합니다. (자세한 내용은 여기에서 제 답변을 찾을 수 있습니다. 도움이됩니다.) 다중 회귀를 수행하는 경우 다중 공선 성 등으로 인해 더 복잡해질 수 있습니다.
댓글
- 단순 선형 회귀에서 매크로가 위에 표시된 것처럼 $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. 다중 회귀에 대한 유사한 표현인가요? ' ' 다중 공선 성, "하지만 여기서 정말 공분산을 의미한다고 생각하십니까?
- @Iamanon, 다음을 읽어보십시오. 다중 회귀 또는 편 상관 계수? 그리고 둘 사이의 관계 .
답변
상관 계수 는 선형 관계의 “tightness”를 측정합니다. 두 변수 사이에 있으며 -1과 1 사이로 제한됩니다. 0에 가까운 상관은 변수 간의 선형 연관이 없음을 나타내는 반면 -1 또는 +1에 가까운 상관은 강한 선형 관계를 나타냅니다. 직관적으로 산점도를 통해 최적의 선을 그리는 것이 더 쉬울수록 상관 관계가 높아집니다.
회귀 기울기 는 “steepness”를 측정합니다. 두 변수 간의 선형 관계이며 $-\ infty $에서 $ + \ infty $까지의 값을 취할 수 있습니다. 0에 가까운 기울기는 반응 (Y) 변수가 예측 변수 (X) 변수가 변경됨에 따라 천천히 변경됨을 의미합니다. 0에서 더 먼 경사 (음 또는 양의 방향)는 예측 변수가 변경됨에 따라 반응이 더 빠르게 변경됨을 의미합니다. 직관적으로 산점도를 통해 최적의 선을 그리려면 가파르면 경사가 0에서 멀어집니다.
따라서 상관 계수와 회귀 기울기는 동일한 부호 (+ 또는-)를 가져야하지만 거의 동일한 값을 갖지 않습니다.
간단하게하기 위해이 답변은 단순한 선형 회귀를 가정합니다.
댓글
- 베타가 $-\ inf, \ inf에있을 수 있음을 표시합니다. $,하지만 ' x와 y의 분산 비율에 의해 암시되는 베타에 대한 사례 별 바인딩이 없습니까?
답변
Pearson의 상관 계수는 차원이 없으며 입력 변수의 차원 및 척도에 관계없이 -1과 1 사이에서 척도 화됩니다.
(예를 들어) 질량을 그램 또는 킬로그램으로 입력하면 $ r $ 값에 차이가 없지만 그래디언트 / 슬로프 (크기가 있고 그에 따라 크기가 조정 됨)에 엄청난 차이를 만들 것입니다. 마찬가지로 파운드 나 톤을 대신 사용하는 것을 포함하여 어떤 식 으로든 스케일을 조정하면 $ r $에 아무런 차이가 없습니다.
간단한 데모 (Python 사용에 대한 사과!) :
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
는 기울기가 다음과 같이 증가 했음에도 불구하고 $ r = 0.969363 $임을 보여줍니다. 10.
저는 “$ r $가 -1과 1 사이에서 스케일링되는 깔끔한 속임수입니다 (분자가 분모보다 절대적인 절대 값을 가질 수없는 경우 중 하나). / p>
@Macro가 위에서 자세히 설명했듯이 기울기 $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $이므로 Pearson의 $ r을 직감하는 것이 맞습니다. $는 기울기와 관련이 있지만 표준 편차 (치수와 스케일을 효과적으로 복원)에 따라 조정할 때만 해당됩니다.
처음에는 수식이 느슨하게 맞춰진 선 (낮은 $ r $)이 더 낮은 기울기를 가져온다는 것을 암시하는 것이 이상하다고 생각했습니다. 그런 다음 예제를 플로팅하고 기울기가 주어지면 “느슨 함”을 변경하면 $ r $가 감소하지만 이는 $ \ sigma_ {y} $의 비례 증가로 상쇄된다는 것을 깨달았습니다.
차트에서 아래에는 4 개의 $ x, y $ 데이터 세트가 표시됩니다.
- $ y = 3x $의 결과 (그래디언트 $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2.89 $, $ \ sigma_ {y} = 8.66 $) … $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- 동일하지만 $ r = 0.2447 $, $ \ sigma_ {x} = 2.89 $, $ \ sigma_ {y} = 34.69 $의 임의의 숫자로 변경되며, 여기서 $ b = 2.94 $를 계산할 수 있습니다.
- $ y = 15x $ ($ b = 15 $ 및 $ r = 1 $, $ \ sigma_ {x} = 0.58 $, $ \ sigma_ {y} = 8.66 $)
- ( 2) 그러나 $ x $ 범위를 줄이면 $ b = 14.70 $ (그리고 여전히 $ r = 0.2447 $, $ \ sigma_ {x} = 0.58 $, $ \ sigma_ {y} = 34.69 $)
분산이 $에 반드시 영향을주지 않고 $ r $에 영향을 미친다는 것을 알 수 있습니다. b $ 및 측정 단위는 스케일에 영향을 미치므로 $ r $에 영향을주지 않고 $ b $에 영향을 줄 수 있습니다.