Yo hubiera esperado que el coeficiente de correlación fuera el mismo que una pendiente de regresión (beta), sin embargo, habiendo comparado los dos, son diferentes. ¿En qué se diferencian? ¿Qué información diferente dan?
Comentarios
- si están normalizados, son lo mismo. pero piense en lo que sucede cuando cambia de unidades …
- Creo que la mejor puntuación responde a esta Q (y tal vez incluso mi A donde muestro que el coeficiente de correlación puede verse como el valor absoluto de la media geométrica de las dos pendientes que obtenemos si hacemos una regresión y sobre x y x en y, respectivamente) también son relevantes aquí
Respuesta
Suponiendo que estás hablando de un simple modelo de regresión $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ estimado por mínimos cuadrados, sabemos de wikipedia que $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Por lo tanto, los dos solo coinciden cuando $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Es decir, solo coinciden cuando las dos variables están en la misma escala, en algún sentido. La forma más común de lograrlo es mediante la estandarización, como lo indica @gung .
Los dos, en s En algunos sentidos, le dan la misma información: cada uno le dice la fuerza de la relación lineal entre $ X_i $ y $ Y_i $ . Pero, cada uno le da información distinta (excepto, por supuesto, cuando son exactamente iguales):
-
La correlación le da una medida acotada que se puede interpretar independientemente de la escala de las dos variables. Cuanto más cercana esté la correlación estimada a $ \ pm 1 $, , más cerca estarán los dos de una relación lineal perfecta . La pendiente de regresión, aisladamente, no le dice esa información.
-
La pendiente de regresión da una cantidad útil interpretada como el cambio estimado en el valor esperado de $ Y_i $ para un valor dado de $ X_i $. Específicamente, $ \ hat \ beta $ le dice el cambio en el valor esperado de $ Y_i $ correspondiente a un aumento de 1 unidad en $ X_i $. Esta información no se puede deducir solo del coeficiente de correlación.
Comentarios
- Como corolario de esta respuesta, observe que la regresión de x contra y no es la inversa de la regresión y contra x!
Respuesta
Con regresión lineal simple (es decir, solo 1 covariable), la pendiente $ \ beta_1 $ es lo mismo que Pearson «s $ r $ si ambas variables se estandarizaron primero. (Para obtener más información, puede encontrar mi respuesta aquí útil.) Cuando está haciendo regresión múltiple, esto puede ser más complicado debido a la multicolinealidad , etc.
Comentarios
- En regresión lineal simple, como se muestra en Macro, $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. ¿Hay un expresión análoga para la regresión múltiple? Parece que no hay ‘ t por el motivo ‘ con » multicolinealidad, » pero yo ¿Cree que realmente quiso decir covarianza aquí?
- @Iamanon, intente leer: ¿Regresión múltiple o coeficiente de correlación parcial? Y las relaciones entre los dos .
Respuesta
El coeficiente de correlación mide la «rigidez» de la relación lineal entre dos variables y está acotada entre -1 y 1, inclusive. Las correlaciones cercanas a cero no representan una asociación lineal entre las variables, mientras que las correlaciones cercanas a -1 o +1 indican una fuerte relación lineal. Intuitivamente, cuanto más fácil sea para ti trazar una línea de mejor ajuste a través de un diagrama de dispersión, más correlacionados estarán.
La pendiente de regresión mide la «pendiente» de la relación lineal entre dos variables y puede tomar cualquier valor desde $ – \ infty $ a $ + \ infty $. Las pendientes cercanas a cero significan que la variable de respuesta (Y) cambia lentamente a medida que cambia la variable de predicción (X). Las pendientes que están más lejos de cero (ya sea en la dirección negativa o positiva) significan que la respuesta cambia más rápidamente a medida que cambia el predictor. Intuitivamente, si dibujara una línea de mejor ajuste a través de una gráfica de dispersión, cuanto más empinada es, más lejos está la pendiente de cero.
Así que el coeficiente de correlación y la pendiente de regresión DEBEN tener el mismo signo (+ o -), pero casi nunca tendrán el mismo valor.
Para simplificar, esta respuesta asume una regresión lineal simple.
Comentarios
- indicas que beta puede estar en $ – \ inf, \ inf $, pero ¿no ‘ no existe un límite caso por caso en beta implícito en la relación de varianza de xey?
Respuesta
El coeficiente de correlación de Pearson es adimensional y se escala entre -1 y 1 independientemente de la dimensión y escala de las variables de entrada.
Si (por ejemplo) ingresa una masa en gramos o kilogramos, no hay diferencia con el valor de $ r $, mientras que esto hará una gran diferencia en el gradiente / pendiente (que tiene dimensión y se escala en consecuencia … del mismo modo, no supondría ninguna diferencia para $ r $ si la escala se ajusta de alguna manera, incluido el uso de libras o toneladas).
Una demostración simple (¡disculpas por usar Python!):
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
muestra que $ r = 0.969363 $ aunque la pendiente se ha incrementado en un factor de 10.
Debo confesar que es un buen truco que $ r $ llegue a escalar entre -1 y 1 (uno de esos casos en los que el numerador nunca puede tener un valor absoluto mayor que el denominador).
Como @Macro ha detallado arriba, pendiente $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, por lo que está en lo correcto al intuir que Pearson «s $ r $ está relacionado con la pendiente, pero solo cuando se ajusta de acuerdo con las desviaciones estándar (¡lo que efectivamente restaura las dimensiones y escalas!).
Al principio pensé que era extraño que la fórmula pareciera sugerir que una línea poco ajustada ($ r $ bajo) da como resultado un gradiente más bajo; luego tracé un ejemplo y me di cuenta de que, dado un gradiente, al variar la «holgura» se produce una disminución de $ r $, pero esto se compensa con un aumento proporcional en $ \ sigma_ {y} $.
En el gráfico a continuación, se trazan cuatro conjuntos de datos $ x, y $:
- los resultados de $ y = 3x $ (por lo que el gradiente $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2.89 $, $ \ sigma_ {y} = 8.66 $) … tenga en cuenta que $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- lo mismo pero variado por un número aleatorio, con $ r = 0.2447 $, $ \ sigma_ {x} = 2.89 $, $ \ sigma_ {y} = 34.69 $, a partir del cual podemos calcular $ b = 2.94 $
- $ y = 15x $ (entonces $ b = 15 $ y $ r = 1 $, $ \ sigma_ {x} = 0.58 $, $ \ sigma_ {y} = 8.66 $)
- lo mismo que ( 2) pero con un rango reducido $ x $ entonces $ b = 14.70 $ (y aún $ r = 0.2447 $, $ \ sigma_ {x} = 0.58 $, $ \ sigma_ {y} = 34.69 $)
Puede verse que la varianza afecta a $ r $ sin afectar necesariamente a $ b $, y las unidades de medida pueden afectar la escala y, por lo tanto, $ b $ sin afectar $ r $