Ik had verwacht dat de correlatiecoëfficiënt hetzelfde zou zijn als een regressiehelling (bèta), maar als ik de twee net vergeleken heb, zijn ze verschillend. Hoe verschillen ze – welke verschillende informatie geven ze?
Opmerkingen
- als ze genormaliseerd zijn, zijn ze hetzelfde. maar denk eens aan wat er gebeurt als u eenheden wijzigt …
- Ik denk dat de best scorende antwoorden op deze Q (en misschien zelfs mijn A ernaar toe, waar ik laat zien dat de correlatiecoëfficiënt kan worden gezien als de absolute waarde van het geometrisch gemiddelde van de twee hellingen die we verkrijgen als we y regresseren op x en x op y, respectievelijk) zijn hier ook relevant.
Antwoord
Ervan uitgaande dat je het hebt over een simpele regressiemodel $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ geschat op basis van de kleinste kwadraten, we weten van Wikipedia dat $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Daarom vallen de twee alleen samen wanneer $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Dat wil zeggen, ze vallen alleen samen als de twee variabelen in zekere zin op dezelfde schaal staan. De meest gebruikelijke manier om dit te bereiken is door standaardisatie, zoals aangegeven door @gung .
De twee, in s ome sense geven je dezelfde informatie: ze vertellen je allemaal de kracht van de lineaire relatie tussen $ X_i $ en $ Y_i $ . Maar ze geven je wel allemaal verschillende informatie (behalve natuurlijk wanneer ze precies hetzelfde zijn):
-
De correlatie geeft je een begrensde meting die onafhankelijk van de schaal van de twee variabelen. Hoe dichter de geschatte correlatie bij $ \ pm 1 $, ligt, hoe dichter de twee bij een perfecte lineaire relatie zijn . De regressiehelling, op zichzelf, vertelt je dat stukje informatie niet.
-
De regressiehelling geeft een bruikbare grootheid, geïnterpreteerd als de geschatte verandering in de verwachte waarde van $ Y_i $ voor een gegeven waarde van $ X_i $. In het bijzonder vertelt $ \ hat \ beta $ u de verandering in de verwachte waarde van $ Y_i $ die overeenkomt met een toename van 1 eenheid in $ X_i $. Deze informatie kan niet alleen uit de correlatiecoëfficiënt worden afgeleid.
Reacties
- Als een uitvloeisel van dit antwoord, merk op dat het terugbrengen van x tegen y niet het omgekeerde is van y tegen x!
Antwoord
Met eenvoudige lineaire regressie (dwz slechts 1 covariaat), de helling $ \ beta_1 $ is hetzelfde als Pearson “s $ r $ als beide variabelen eerst gestandaardiseerd waren. (Voor meer informatie vind je mijn antwoord hier nuttig.) Wanneer u meervoudige regressie uitvoert, kan dit ingewikkelder zijn vanwege multicollineariteit , enz.
Opmerkingen
- In eenvoudige lineaire regressie, zoals Macro, hierboven toont, $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. Is er een analoge uitdrukking voor meervoudige regressie? Het lijkt erop dat er geen ‘ t is vanwege de reden dat u ‘ terugkomt met ” multicollineariteit, ” maar ik denk je dat je hier echt covariantie bedoelde?
- @Iamanon, probeer eens te lezen: Meervoudige regressie of gedeeltelijke correlatiecoëfficiënt? En relaties tussen de twee .
Antwoord
De correlatiecoëfficiënt meet de “strakheid” van lineaire relatie tussen twee variabelen en is begrensd tussen -1 en 1, inclusief. Correlaties dichtbij nul vertegenwoordigen geen lineair verband tussen de variabelen, terwijl correlaties dicht bij -1 of +1 een sterke lineaire relatie aangeven. Hoe gemakkelijker het voor u is om de best passende lijn door een scatterplot te trekken, des te meer gecorreleerd ze zijn.
De regressiehelling meet de “steilheid” van de lineaire relatie tussen twee variabelen en kan elke waarde aannemen van $ – \ infty $ tot $ + \ infty $. Hellingen nabij nul betekenen dat de responsvariabele (Y) langzaam verandert naarmate de voorspellende (X) -variabele verandert. Hellingen die verder van nul verwijderd zijn (in negatieve of positieve richting) betekenen dat de respons sneller verandert naarmate de voorspeller verandert. Als je intuïtief een lijn zou trekken die het best past door een scatterplot, hoe steiler het is, hoe verder je helling vanaf nul is.
Dus de correlatiecoëfficiënt en de regressiehelling MOETEN hetzelfde teken (+ of -) hebben, maar zullen bijna nooit dezelfde waarde hebben.
Voor de eenvoud wordt bij dit antwoord uitgegaan van eenvoudige lineaire regressie.
Opmerkingen
- u stelt dat bèta in $ – \ inf, \ inf kan staan $, maar is er geen ‘ Is er een geval-voor-geval gebonden aan bèta geïmpliceerd door de variantie-verhouding van x en y?
Answer
Pearsons correlatiecoëfficiënt is dimensieloos en geschaald tussen -1 en 1, ongeacht de dimensie en schaal van de invoervariabelen.
Als u (bijvoorbeeld) een massa in gram of kilogram invoert, maakt het geen verschil voor de waarde van $ r $, terwijl dit een enorm verschil zal maken voor de helling / helling (die afmetingen heeft en dienovereenkomstig wordt geschaald … evenzo zou het voor $ r $ geen verschil maken als de weegschaal op enigerlei wijze wordt aangepast, inclusief het gebruik van ponden of tonnen).
Een eenvoudige demonstratie (excuses voor het gebruik van Python!):
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
laat zien dat $ r = 0.969363 $ ook al is de helling verhoogd met een factor 10.
Ik moet bekennen dat het “een leuke truc is dat $ r $ wordt geschaald tussen -1 en 1 (een van die gevallen waarin de teller nooit een absolute waarde kan hebben die groter is dan de noemer).
Zoals @Macro hierboven heeft beschreven, helling $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, dus je hebt gelijk als je aanneemt dat Pearson “s $ r $ is gerelateerd aan de helling, maar alleen wanneer aangepast volgens de standaarddeviaties (wat effectief de afmetingen en schalen herstelt!).
In eerste instantie vond ik het vreemd dat de formule lijkt te suggereren dat een losjes passende lijn (lage $ r $) resulteert in een lager verloop; toen tekende ik een voorbeeld en realiseerde me dat gegeven een verloop, het variëren van de “losheid” resulteert in een afname van $ r $, maar dit wordt gecompenseerd door een evenredige toename van $ \ sigma_ {y} $.
In de grafiek hieronder worden vier $ x, y $ datasets uitgezet:
- de resultaten van $ y = 3x $ (dus gradiënt $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2.89 $, $ \ sigma_ {y} = 8.66 $) … merk op dat $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- hetzelfde maar gevarieerd door een willekeurig getal, met $ r = 0.2447 $, $ \ sigma_ {x} = 2.89 $, $ \ sigma_ {y} = 34.69 $, waaruit we $ b = 2.94 $ kunnen berekenen
- $ y = 15x $ (dus $ b = 15 $ en $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
- hetzelfde als ( 2) maar met een kleiner bereik $ x $ dus $ b = 14,70 $ (en nog steeds $ r = 0,2447 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $)
Het is duidelijk dat variantie $ r $ beïnvloedt zonder noodzakelijk $ b $, en meeteenheden kunnen de schaal beïnvloeden en dus $ b $ zonder $ r $ te beïnvloeden.