Jeg hadde forventet at korrelasjonskoeffisienten ville være den samme som en regresjonshelling (beta), men når jeg bare har sammenlignet de to, er de forskjellige. Hvordan skiller de seg ut – hvilken forskjellig informasjon gir de?
Kommentarer
- hvis de normaliseres, er de de samme. men tenk på hva som skjer når du skifter enheter …
- Jeg tror toppscorer svarer til denne Q (og kanskje til og med min A til det der jeg viser at korrelasjonskoeffisienten kan sees på som den absolutte verdien av det geometriske gjennomsnittet av de to skråningene vi får hvis vi regreserer y på x henholdsvis x på y) er også relevante her
Svar
Forutsatt at du snakker om en enkel regresjonsmodell $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ estimert av minste kvadrater, vi vet fra wikipedia at $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Derfor er de to bare sammenfallende når $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Det vil si at de bare sammenfaller når de to variablene er på samme skala, i en eller annen forstand. Den vanligste måten å oppnå dette på er gjennom standardisering, som indikert av @gung .
De to, i s ome sense gir deg den samme informasjonen – de forteller deg styrken til lineær forholdet mellom $ X_i $ og $ Y_i $ . Men de gir hver enkelt deg tydelig informasjon (bortsett fra selvfølgelig når de er nøyaktig de samme):
-
Korrelasjonen gir deg en avgrenset måling som kan tolkes uavhengig av skala av de to variablene. Jo nærmere den estimerte korrelasjonen er $ \ pm 1 $, jo nærmere de to er et perfekt lineært forhold . Regresjonshellingen, isolert, forteller deg ikke den informasjonen.
-
Regresjonshellingen gir en nyttig mengde tolket som den estimerte endringen i den forventede verdien på $ Y_i $ for en gitt verdi på $ X_i $. Spesifikt forteller $ \ hat \ beta $ deg endringen i forventet verdi på $ Y_i $ tilsvarende en økning på 1 enhet i $ X_i $. Denne informasjonen kan ikke trekkes fra korrelasjonskoeffisienten alene.
Kommentarer
- Som en følge av dette svaret, legg merke til at tilbakegang x mot y ikke er det motsatte av å gå tilbake y mot x!
Svar
Med enkel lineær regresjon (dvs. bare 1 kovariat), vil hellingen $ \ beta_1 $ er det samme som Pearson «s $ r $ hvis begge variablene var standardiserte først. (For mer informasjon kan du finne svaret mitt her nyttig.) Når du gjør flere regresjoner, kan dette være mer komplisert på grunn av multikollinearitet osv.
Kommentarer
- I enkel lineær regresjon, som Makro, viser ovenfor, $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. Er det en analogt uttrykk for multippel regresjon? Det ser ut til at det ikke er ‘ t fordi du ‘ kommer i gang med » multikollinearitet, » men jeg tror du virkelig mente kovarians her?
- @Iamanon, prøv å lese: Flere regresjoner eller delvis korrelasjonskoeffisienter? Og forholdet mellom de to .
Svar
korrelasjonskoeffisient måler «tetthet» av lineært forhold mellom to variabler og er avgrenset mellom -1 og 1, inkludert. Korrelasjoner nær null representerer ingen lineær sammenheng mellom variablene, mens korrelasjoner nær -1 eller +1 indikerer sterk lineær sammenheng. Intuitivt, jo lettere er det for deg å tegne en linje som passer best gjennom et spredningsdiagram, jo mer korrelert er de.
regresjonshelling måler «steilhet» av det lineære forholdet mellom to variabler og kan ta en hvilken som helst verdi fra $ – \ infty $ til $ + \ infty $. Skråninger nær null betyr at responsvariabelen (Y) endres sakte når prediktor (X) -variabelen endres. Skråninger som er lenger fra null (enten i negativ eller positiv retning) betyr at responsen endres raskere når prediktoren endres. Intuitivt, hvis du skulle tegne en linje som passer best gjennom en spredningsplan, jo brattere den er, jo lenger er hellingen din fra null.
Så korrelasjonskoeffisienten og regresjonshellingen MÅ ha samme tegn (+ eller -), men vil nesten aldri ha den samme verdien.
For enkelhets skyld forutsetter dette svaret enkel lineær regresjon.
Kommentarer
- du angir at beta kan være i $ – \ inf, \ inf $, men er det ikke ‘ det er en sak-for-sak-bundet til beta antydet av variansforholdet mellom x og y?
Svar
Pearsons korrelasjonskoeffisient er dimensjonsløs og skalert mellom -1 og 1 uavhengig av dimensjon og skala for inngangsvariablene.
Hvis du (for eksempel) legger inn en masse i gram eller kilo, gjør det ingen forskjell for verdien på $ r $, mens dette vil utgjøre en enorm forskjell i gradienten / hellingen (som har dimensjon og er skalert tilsvarende … på samme måte ville det ikke utgjøre noen forskjell til $ r $ hvis skalaen justeres på noen måte, inkludert bruk av pund eller tonn i stedet).
En enkel demonstrasjon (beklager bruk av Python!):
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
viser at $ r = 0.969363 $ selv om skråningen er økt med en faktor på 10.
Jeg må innrømme at det er et pent triks at $ r $ skaleres mellom -1 og 1 (et av de tilfellene der telleren aldri kan ha absolutt større verdi enn nevneren).
Som @Macro har beskrevet ovenfor, må du skråstige $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, så du er riktig når du intuiterer at Pearson «s $ r $ er relatert til skråningen, men bare når den justeres i henhold til standardavvikene (som effektivt gjenoppretter dimensjoner og skalaer!).
Først syntes jeg det var rart at formelen ser ut til å antyde at en løst montert linje (lav $ r $) resulterer i en lavere gradient; så tegnet jeg et eksempel og innså at gitt en gradient, varierende «løsheten» resulterer i $ r $ synkende, men dette blir motvirket av en proporsjonal økning i $ \ sigma_ {y} $.
I diagrammet nedenfor er fire $ x, y $ datasett tegnet:
- resultatene av $ y = 3x $ (så gradient $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2,89 $, $ \ sigma_ {y} = 8,66 $) … merk at $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- det samme, men variert med et tilfeldig tall, med $ r = 0.2447 $, $ \ sigma_ {x} = 2.89 $, $ \ sigma_ {y} = 34.69 $, som vi kan beregne $ b = 2,94 $
- $ y = 15x $ (så $ b = 15 $ og $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
- det samme som ( 2) men med redusert område $ x $ så $ b = 14,70 $ (og fortsatt $ r = 0,2444 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $)
Det kan sees at varians påvirker $ r $ uten nødvendigvis å påvirke $ b $, og måleenheter kan påvirke skala og dermed $ b $ uten å påvirke $ r $