En quoi le coefficient de corrélation diffère-t-il de la pente de régression?

Je me serais attendu à ce que le coefficient de corrélation soit le même quune pente de régression (bêta), mais en ayant juste comparé les deux, ils sont différents. En quoi diffèrent-ils – quelles informations différentes donnent-ils?

Commentaires

  • sils sont normalisés, ils sont identiques. mais pensez à ce qui se passe lorsque vous changez dunités …
  • Je pense que le meilleur score répond à cette Q (et peut-être même mon A à celui-ci où je montre que le coefficient de corrélation peut être vu comme la valeur absolue de la moyenne géométrique des deux pentes que nous obtenons si nous régressons y sur x et x sur y, respectivement) sont également pertinents ici

Answer

En supposant que vous « parlez dun simple modèle de régression $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ estimé par les moindres carrés, nous savons de wikipedia que $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Par conséquent, les deux ne coïncident que lorsque $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Autrement dit, elles ne coïncident que lorsque les deux variables sont sur la même échelle, dans un certain sens. La manière la plus courante dy parvenir est la standardisation, comme indiqué par @gung .

Les deux, en s Certains sens vous donnent les mêmes informations – ils vous indiquent chacun la force de la relation linear entre $ X_i $ et $ Y_i $ . Mais, ils vous donnent chacun des informations distinctes (sauf, bien sûr, quand ils sont exactement les mêmes):

  • La corrélation vous donne une mesure bornée qui peut être interprétée indépendamment du échelle des deux variables. Plus la corrélation estimée est proche de $ \ pm 1 $, plus les deux sont proches dune relation linéaire parfaite . La pente de régression, isolée, ne vous dit pas cette information.

  • La pente de régression donne une quantité utile interprétée comme le changement estimé de la valeur attendue de $ Y_i $ pour une valeur donnée de $ X_i $. Plus précisément, $ \ hat \ beta $ vous indique le changement de la valeur attendue de $ Y_i $ correspondant à une augmentation dune unité de $ X_i $. Cette information ne peut être déduite du seul coefficient de corrélation.

Commentaires

  • Comme corollaire de cette réponse, notez que régresser x contre y nest pas linverse de la régression y contre x!

Réponse

Avec une régression linéaire simple (cest-à-dire une seule covariable), la pente $ \ beta_1 $ est identique à Pearson « s $ r $ si les deux variables ont dabord été standardisées . (Pour plus dinformations, vous pouvez trouver ma réponse ici utile.) Lorsque vous effectuez une régression multiple, cela peut être plus compliqué en raison de la , etc.

Commentaires

  • Dans une régression linéaire simple, comme Macro, montre ci-dessus, $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. Y a-t-il un expression analogue pour la régression multiple? Il semble quil ny ait pas ‘ t pour la raison pour laquelle vous ‘ vous arrivez avec  » multicollinéarité,  » mais je pensez-vous vraiment vouloir dire la covariance ici?
  • @Iamanon, essayez de lire: Régression multiple ou coefficient de corrélation partielle? Et les relations entre les deux .

Réponse

Le coefficient de corrélation mesure la « serrage » de la relation linéaire entre deux variables et est borné entre -1 et 1, inclus. Les corrélations proches de zéro ne représentent aucune association linéaire entre les variables, tandis que les corrélations proches de -1 ou +1 indiquent une relation linéaire forte. Intuitivement, plus il vous est facile de tracer une ligne de meilleur ajustement sur un nuage de points, plus ils sont corrélés.

La pente de régression mesure la « pente » de la relation linéaire entre deux variables et peut prendre nimporte quelle valeur de $ – \ infty $ à $ + \ infty $. Des pentes proches de zéro signifient que la variable de réponse (Y) change lentement à mesure que la variable de prédicteur (X) change. Les pentes plus éloignées de zéro (dans le sens négatif ou positif) signifient que la réponse change plus rapidement à mesure que le prédicteur change. Intuitivement, si vous deviez tracer une ligne de meilleur ajustement à travers un nuage de points, plus elle est raide, plus votre pente est éloignée de zéro.

Ainsi, le coefficient de corrélation et la pente de régression DOIVENT avoir le même signe (+ ou -), mais nauront presque jamais la même valeur.

Pour simplifier, cette réponse suppose une régression linéaire simple.

Commentaires

  • vous indiquez que la version bêta peut être dans $ – \ inf, \ inf $, mais ny a-t-il pas ‘ une borne cas par cas sur beta implicite par le rapport de variance de x et y?

Réponse

Le coefficient de corrélation de Pearson est sans dimension et mis à léchelle entre -1 et 1, quelles que soient la dimension et léchelle des variables dentrée.

Si (par exemple) vous entrez une masse en grammes ou en kilogrammes, cela ne change rien à la valeur de $ r $, alors que cela fera une énorme différence sur le gradient / pente (qui a une dimension et est mis à léchelle en conséquence … de même, cela ne ferait aucune différence pour $ r $ si léchelle était ajustée de quelque manière que ce soit, y compris en utilisant des livres ou des tonnes à la place.

Une simple démonstration (excuses pour lutilisation de Python!):

import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1] 

montre que $ r = 0.969363 $ même si la pente a été augmentée dun facteur de 10.

Je dois avouer que « une astuce intéressante est que $ r $ vient à être mis à léchelle entre -1 et 1 (un de ces cas où le numérateur ne peut jamais avoir de valeur absolue supérieure au dénominateur).

Comme @Macro la détaillé ci-dessus, pente $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, donc vous avez raison de comprendre que Pearson « s $ r $ est lié à la pente, mais uniquement lorsquil est ajusté en fonction des écarts types (ce qui restaure effectivement les dimensions et les échelles!).

Au début, jai trouvé étrange que la formule semble suggérer quune ligne vaguement ajustée (faible $ r $) aboutisse à un gradient plus bas; puis jai tracé un exemple et réalisé que, étant donné un gradient, faire varier le « relâchement » entraîne une diminution de $ r $ mais cela est compensé par une augmentation proportionnelle de $ \ sigma_ {y} $.

Dans le graphique ci-dessous, quatre ensembles de données $ x, y $ sont tracés:

  1. les résultats de $ y = 3x $ (donc gradient $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2,89 $, $ \ sigma_ {y} = 8,66 $) … notez que $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
  2. pareil mais varié par un nombre aléatoire, avec $ r = 0,2447 $, $ \ sigma_ {x} = 2,89 $, $ \ sigma_ {y} = 34,69 $, à partir duquel on peut calculer $ b = 2,94 $
  3. $ y = 15x $ (donc $ b = 15 $ et $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
  4. le même que ( 2) mais avec une plage réduite $ x $ donc $ b = 14,70 $ (et toujours $ r = 0,2447 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $) corrélation et gradient

On peut voir que la variance affecte $ r $ sans nécessairement affecter $ b $, et les unités de mesure peuvent affecter léchelle et donc $ b $ sans affecter $ r $

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *