Jeg ville have forventet, at korrelationskoefficienten var den samme som en regressionshældning (beta), men når jeg lige har sammenlignet de to, er de forskellige. Hvordan adskiller de sig – hvilke forskellige oplysninger giver de?
Kommentarer
- hvis de normaliseres, er de de samme. men tænk på, hvad der sker, når du foretager ændring af enheder …
- Jeg tror, at topscorer svarer til denne Q (og måske endda min A til det, hvor jeg viser, at korrelationskoefficienten kan ses som den absolutte værdi af det geometriske gennemsnit af de to skråninger, vi får, hvis vi regresserer y på x og henholdsvis x på y) er også relevante her
Svar
Forudsat at du taler om et simpelt regressionsmodel $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ estimeret af mindste kvadrater, vi kender fra wikipedia , at $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Derfor falder de to kun sammen, når $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Det vil sige, de falder kun sammen, når de to variabler er på samme skala i en eller anden forstand. Den mest almindelige måde at opnå dette på er gennem standardisering, som angivet af @gung .
De to, i s ome sense giver dig de samme oplysninger – de fortæller dig hver styrke lineær forholdet mellem $ X_i $ og $ Y_i $ . Men de giver hver især forskellige oplysninger (undtagen selvfølgelig, når de er nøjagtigt de samme):
-
Korrelationen giver dig en afgrænset måling, der kan fortolkes uafhængigt af skala for de to variabler. Jo tættere den estimerede sammenhæng er $ \ pm 1 $, jo tættere er de to på et perfekt lineært forhold . Regressionshældningen fortæller dig isoleret set ikke det stykke information.
-
Regressionshældningen giver en nyttig mængde fortolket som den estimerede ændring i den forventede værdi på $ Y_i $ for en given værdi på $ X_i $. Specifikt fortæller $ \ hat \ beta $ dig ændringen i den forventede værdi på $ Y_i $ svarende til en stigning på 1 enhed i $ X_i $. Disse oplysninger kan ikke udledes af korrelationskoefficienten alene.
Kommentarer
- Som en sammenhæng med dette svar skal du bemærke, at regression af x mod y ikke er det modsatte af regression y mod x!
Svar
Med simpel lineær regression (dvs. kun 1 kovariat), hældningen $ \ beta_1 $ er det samme som Pearson “s $ r $, hvis begge variabler var standardiserede først. (For mere information kan du finde mit svar her nyttigt.) Når du foretager flere regressioner, kan dette være mere kompliceret på grund af multikollinearitet osv.
Kommentarer
- I simpel lineær regression, som Makro, viser ovenfor, $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. Er der en analogt udtryk for multipel regression? Det ser ud til, at der ikke er ‘ t, fordi du ‘ kommer i gang med ” multikollinearitet, ” men jeg tror du virkelig mente kovarians her?
- @Iamanon, prøv at læse: Multipel regression eller delvis korrelationskoefficient? Og forholdet mellem de to .
Svar
korrelationskoefficient måler “tæthed” af lineært forhold mellem to variabler og er afgrænset mellem -1 og 1 inklusive. Korrelationer tæt på nul repræsenterer ingen lineær sammenhæng mellem variablerne, mens korrelationer tæt på -1 eller +1 indikerer stærk lineær sammenhæng. Intuitivt, jo lettere er det for dig at tegne en linje, der passer bedst gennem et scatterplot, jo mere korreleret er de.
regressionshældning måler “stejlhed” af det lineære forhold mellem to variabler og kan tage enhver værdi fra $ – \ infty $ til $ + \ infty $. Hældninger nær nul betyder, at responsvariablen (Y) ændres langsomt, når forudsigelsesvariablen (X) ændres. Skråninger, der er længere fra nul (enten i negativ eller positiv retning) betyder, at svaret ændres hurtigere, når forudsigeren ændres. Hvis du intuitivt trækker en linje, der passer bedst gennem et spredningsdiagram, jo stejlere det er, jo længere er din hældning fra nul.
Så korrelationskoefficienten og regressionshældningen SKAL have det samme tegn (+ eller -), men vil næsten aldrig have den samme værdi.
For nemheds skyld forudsætter dette svar simpel lineær regression.
Kommentarer
- du angiver, at beta kan være i $ – \ inf, \ inf $, men er der ikke ‘ der er en sag-for-sag bundet til beta underforstået af variansforholdet mellem x og y?
Svar
Pearsons korrelationskoefficient er dimensionsløs og skaleres mellem -1 og 1 uanset dimensionen og skalaen for inputvariablerne.
Hvis du (for eksempel) indtaster en masse i gram eller kilogram, betyder det ingen forskel for værdien på $ r $, hvorimod dette vil gøre en enorm forskel i gradienten / hældningen (som har dimension og skaleres i overensstemmelse hermed … ligeledes ville det ikke gøre nogen forskel for $ r $, hvis skalaen justeres på nogen måde, inklusive brug af pund eller tons i stedet).
En simpel demonstration (undskyld for at bruge Python!):
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
viser, at $ r = 0.969363 $, selvom hældningen er øget med en faktor på 10.
Jeg må indrømme, at det er et pænt trick, at $ r $ skaleres mellem -1 og 1 (et af de tilfælde, hvor tælleren aldrig kan have en absolut værdi større end nævneren).
Som @Macro har beskrevet ovenfor, skal du hælde $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, så du har ret i at intuitere, at Pearson “s $ r $ er relateret til hældningen, men kun når den justeres i henhold til standardafvigelserne (som effektivt gendanner dimensioner og skalaer!).
Først syntes jeg det var underligt, at formlen synes at antyde, at en løst monteret linje (lav $ r $) resulterer i en lavere gradient; så plottede jeg et eksempel og indså, at givet en gradient, varierende “løsheden” resulterer i $ r $ faldende, men dette modsvares af en proportional stigning i $ \ sigma_ {y} $.
I diagrammet nedenfor er fire $ x, y $ datasæt tegnet:
- resultaterne af $ y = 3x $ (så gradient $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2,89 $, $ \ sigma_ {y} = 8,66 $) … bemærk, at $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- det samme, men varieret med et tilfældigt tal med $ r = 0.2447 $, $ \ sigma_ {x} = 2.89 $, $ \ sigma_ {y} = 34.69 $, hvorfra vi kan beregne $ b = 2,94 $
- $ y = 15x $ (så $ b = 15 $ og $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
- det samme som ( 2) men med reduceret rækkevidde $ x $ så $ b = 14,70 $ (og stadig $ r = 0,2444 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $)
Det kan ses, at varians påvirker $ r $ uden nødvendigvis at påvirke $ b $, og måleenheder kan påvirke skalaen og dermed $ b $ uden at påvirke $ r $