Ich hätte erwartet, dass der Korrelationskoeffizient dem einer Regressionssteigung (Beta) entspricht, aber nachdem ich die beiden gerade verglichen habe, sind sie unterschiedlich. Wie unterscheiden sie sich – welche unterschiedlichen Informationen geben sie?
Kommentare
- Wenn sie normalisiert sind, sind sie gleich. Aber denken Sie daran, was passiert, wenn Sie die Einheiten wechseln …
- Ich denke, die am besten bewerteten Antworten auf dieses Q (und vielleicht sogar) mein A , wo ich zeige, dass der Korrelationskoeffizient als absoluter Wert des geometrischen Mittels der beiden Steigungen angesehen werden kann, die wir erhalten, wenn wir y auf x zurückführen und x auf y) sind auch hier relevant.
Antwort
Angenommen, Sie sprechen von einer einfachen Regressionsmodell $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ geschätzt durch kleinste Quadrate, wir kennen aus Wikipedia , dass $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Daher fallen die beiden nur zusammen, wenn $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Das heißt, sie fallen in gewissem Sinne nur zusammen, wenn die beiden Variablen auf derselben Skala liegen. Der häufigste Weg, dies zu erreichen, ist die Standardisierung, wie durch @gung angegeben .
Die beiden in s Jeder Sinn gibt Ihnen die gleichen Informationen – sie geben jeweils die Stärke der linearen Beziehung zwischen $ X_i $ und $ Y_i $ an . Sie geben Ihnen jedoch jeweils unterschiedliche Informationen (außer natürlich, wenn sie genau gleich sind):
-
Die Korrelation gibt Ihnen eine begrenzte Messung, die unabhängig von der interpretiert werden kann Skala der beiden Variablen. Je näher die geschätzte Korrelation an $ \ pm 1 $ liegt, desto näher sind die beiden an einer perfekten linearen Beziehung . Die Regressionssteigung allein sagt Ihnen diese Information nicht.
-
Die Regressionssteigung gibt eine nützliche Größe an, die als geschätzte Änderung des erwarteten Werts von $ Y_i $ für einen bestimmten Wert von $ X_i $ interpretiert wird. Insbesondere gibt $ \ hat \ beta $ die Änderung des erwarteten Werts von $ Y_i $ an, die einer Erhöhung von $ X_i $ um 1 Einheit entspricht. Diese Informationen können nicht allein aus dem Korrelationskoeffizienten abgeleitet werden.
Kommentare
- Beachten Sie als Folge dieser Antwort, dass die Regression von x gegen y nicht die Umkehrung der Regression ist y gegen x!
Antwort
Bei einfacher linearer Regression (dh nur 1 Kovariate) beträgt die Steigung $ \ beta_1 $ ist dasselbe wie Pearsons $ r $, wenn beide Variablen zuerst standardisiert waren. (Weitere Informationen finden Sie hier meine Antwort hilfreich.) Wenn Sie mehrere Regressionen durchführen, kann dies aufgrund von Multikollinearität usw. komplizierter sein.
Kommentare
- In der einfachen linearen Regression, wie Makro oben zeigt, ist $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. Gibt es eine analoger Ausdruck für multiple Regression? Es scheint, dass es nicht ‚ t gibt, aus dem Grund, warum Sie ‚ mit Multikollinearität, “ aber ich Denken Sie, Sie meinten hier wirklich Kovarianz?
- @Iamanon, versuchen Sie zu lesen: Multiple Regression oder partieller Korrelationskoeffizient? Und Beziehungen zwischen den beiden .
Antwort
Die Korrelationskoeffizient misst die „Dichtheit“ der linearen Beziehung zwischen zwei Variablen und ist zwischen -1 und 1 einschließlich begrenzt. Korrelationen nahe Null stellen keine lineare Assoziation zwischen den Variablen dar, während Korrelationen nahe -1 oder +1 eine starke lineare Beziehung anzeigen. Je einfacher es für Sie ist, eine Linie mit der besten Anpassung durch ein Streudiagramm zu zeichnen, desto korrelierter sind sie.
Die Regressionssteigung misst die „Steilheit“ der linearen Beziehung zwischen zwei Variablen und kann einen beliebigen Wert von $ – \ infty $ bis $ + \ infty $ annehmen. Steigungen nahe Null bedeuten, dass sich die Antwortvariable (Y) langsam ändert, wenn sich die Prädiktorvariable (X) ändert. Steigungen, die weiter von Null entfernt sind (entweder in negativer oder positiver Richtung), bedeuten, dass sich die Antwort schneller ändert, wenn sich der Prädiktor ändert. Wenn Sie intuitiv eine Linie mit der besten Anpassung durch ein Streudiagramm zeichnen, ist Ihre Steigung umso weiter von Null entfernt, je steiler sie ist.
Der Korrelationskoeffizient und die Regressionssteigung MÜSSEN also das gleiche Vorzeichen (+ oder -) haben, haben aber fast nie den gleichen Wert.
Der Einfachheit halber geht diese Antwort von einer einfachen linearen Regression aus.
Kommentare
- Sie geben an, dass Beta in $ – \ inf, \ inf sein kann $, aber ist ‚ nicht ein Fall für Fall an Beta gebunden, der durch das Varianzverhältnis von x und y impliziert wird?
Antwort
Der Korrelationskoeffizient von Pearson ist dimensionslos und wird unabhängig von der Dimension und Skalierung der Eingabevariablen zwischen -1 und 1 skaliert.
Wenn Sie (zum Beispiel) eine Masse in Gramm oder Kilogramm eingeben, hat dies keinen Einfluss auf den Wert von $ r $, wohingegen dies einen enormen Unterschied für den Gradienten / die Steigung (der eine Dimension hat und entsprechend skaliert ist …) bewirkt. Ebenso würde es für $ r $ keinen Unterschied machen, wenn die Skala in irgendeiner Weise angepasst wird, einschließlich der Verwendung von Pfund oder Tonnen stattdessen.
Eine einfache Demonstration (Entschuldigung für die Verwendung von Python!):
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
zeigt, dass $ r = 0,969363 $, obwohl die Steigung um den Faktor erhöht wurde 10.
Ich muss gestehen, dass es ein guter Trick ist, dass $ r $ zwischen -1 und 1 skaliert wird (einer der Fälle, in denen der Zähler niemals einen Absolutwert haben kann, der größer als der Nenner ist).
Wie @Macro oben ausführlich beschrieben hat, ist Steigung $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, sodass Sie richtig verstehen, dass Pearson $ r ist $ bezieht sich auf die Steigung, jedoch nur, wenn sie gemäß den Standardabweichungen angepasst wird (wodurch die Abmessungen und Skalen effektiv wiederhergestellt werden!).
Zuerst fand ich es seltsam, dass die Formel darauf hindeutet, dass eine locker angepasste Linie (niedrig $ r $) zu einem geringeren Gradienten führt. Dann habe ich ein Beispiel gezeichnet und festgestellt, dass bei einem Gradienten die Variation der „Lockerheit“ zu einer Verringerung von $ r $ führt, dies wird jedoch durch eine proportionale Zunahme von $ \ sigma_ {y} $ ausgeglichen.
In der Grafik Im Folgenden sind vier $ x, y $ -Datensätze dargestellt:
- die Ergebnisse von $ y = 3x $ (also Gradient $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2.89 $, $ \ sigma_ {y} = 8.66 $) … beachte, dass $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- dasselbe ist, aber variiert durch eine Zufallszahl mit $ r = 0,2447 $, $ \ sigma_ {x} = 2,89 $, $ \ sigma_ {y} = 34,69 $, aus der wir $ b = 2,94 $
- berechnen können $ y = 15x $ (also $ b = 15 $ und $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
- dasselbe wie ( 2) aber mit reduziertem Bereich $ x $ also $ b = 14,70 $ (und immer noch $ r = 0,2447 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $)
Es ist ersichtlich, dass die Varianz $ r $ beeinflusst, ohne notwendigerweise $ zu beeinflussen b $ und Maßeinheiten können die Skalierung und damit $ b $ beeinflussen, ohne $ r $
zu beeinflussen