Jag hade förväntat mig att korrelationskoefficienten skulle vara densamma som en regressionslutning (beta), men om jag bara har jämfört de två är de olika. Hur skiljer de sig åt – vilken annan information ger de?
Kommentarer
- om de normaliseras är de desamma. men tänk på vad som händer när du byter enheter …
- Jag tror att de bästa poängen svarar på denna fråga (och kanske till och med min A till det där jag visar att korrelationskoefficienten kan ses som det absoluta värdet av det geometriska medelvärdet för de två lutningarna vi får om vi återgår till y på x respektive x på y) är också relevanta här
Svar
Förutsatt att du pratar om ett enkelt regressionsmodell $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ uppskattad av minsta kvadrater, vi vet från wikipedia att $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Därför sammanfaller de två bara när $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Det vill säga att de bara sammanfaller när de två variablerna är i samma skala, i någon mening. Det vanligaste sättet att uppnå detta är genom standardisering, vilket indikeras av @gung .
De två, i s ome sense ger dig samma information – de berättar var och en styrkan för linjär förhållandet mellan $ X_i $ och $ Y_i $ . Men de ger var och en distinkt information (förutom naturligtvis när de är exakt samma):
-
Korrelationen ger dig en begränsad mätning som kan tolkas oberoende av skala för de två variablerna. Ju närmare den uppskattade korrelationen är $ \ pm 1 $, ju närmare de två är ett perfekt linjärt förhållande . Regressionslutningen säger isolerat inte den informationen.
-
Regressionslutningen ger en användbar kvantitet tolkad som den beräknade förändringen i det förväntade värdet på $ Y_i $ för ett givet värde på $ X_i $. Specifikt berättar $ \ hat \ beta $ dig förändringen i det förväntade värdet på $ Y_i $ motsvarande en 1-enhetsökning i $ X_i $. Denna information kan inte dras av enbart korrelationskoefficienten.
Kommentarer
- Som en följd av detta svar, lägg märke till att regression av x mot y inte är det motsatta av regression y mot x!
Svar
Med enkel linjär regression (dvs. endast 1 kovariat), lutningen $ \ beta_1 $ är samma som Pearson ”s $ r $ om båda variablerna standardiserades först. (För mer information kan du hitta mitt svar här användbart.) När du gör flera regressioner kan detta vara mer komplicerat på grund av multikollinearitet , etc.
Kommentarer
- I enkel linjär regression, som Makro, visar ovan, $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. Finns det en analogt uttryck för multipel regression? Det verkar som om det inte finns ’ t för att du ’ håller på med ” multikollinearitet, ” men jag tror du att du verkligen menade kovarians här?
- @Iamanon, försök läsa: Multipel regression eller partiell korrelationskoefficient? Och relationerna mellan de två .
Svar
korrelationskoefficient mäter ”tightness” av linjärt förhållande mellan två variabler och avgränsas mellan -1 och 1 inklusive. Korrelationer nära noll representerar ingen linjär koppling mellan variablerna, medan korrelationer nära -1 eller +1 indikerar stark linjär relation. Intuitivt, ju lättare det är för dig att rita en linje som passar bäst genom en scatterplot, desto mer korrelerade är de.
regressionslutning mäter ”branthet” av det linjära förhållandet mellan två variabler och kan ta vilket värde som helst från $ – \ infty $ till $ + \ infty $. Lutningar nära noll betyder att responsvariabeln (Y) ändras långsamt när prediktor (X) -variabeln ändras. Lutningar som ligger längre från noll (antingen i negativ eller positiv riktning) betyder att svaret ändras snabbare när prediktorn ändras. Intuitivt, om du skulle rita en linje som passar bäst genom en spridningsplan, ju brantare den är, desto längre är lutningen från noll.
Så korrelationskoefficienten och regressionslutningen MÅSTE ha samma tecken (+ eller -) men kommer nästan aldrig att ha samma värde.
För enkelhetens skull antar detta svar enkel linjär regression.
Kommentarer
- du anger att beta kan vara i $ – \ inf, \ inf $, men är det inte ’ att det är fall från fall till fall bundet till beta som antyds av variansförhållandet mellan x och y?
Svar
Pearsons korrelationskoefficient är dimensionell och skalas mellan -1 och 1 oavsett dimension och skala för ingångsvariablerna.
Om du (till exempel) matar in en massa i gram eller kg, gör det ingen skillnad för värdet $ r $, medan detta kommer att göra en enorm skillnad i lutningen / lutningen (som har dimension och skalas därefter … på samma sätt skulle det inte göra någon skillnad för $ r $ om skalan justeras på något sätt, inklusive att använda pounds eller ton istället).
En enkel demonstration (ursäkt för att använda Python!):
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
visar att $ r = 0.969363 $ även om lutningen har ökats med en faktor på 10.
Jag måste erkänna att det är ett snyggt trick att $ r $ ska skalas mellan -1 och 1 (ett av de fall där täljaren aldrig kan ha ett absolut värde större än nämnaren).
Som @Macro har beskrivit ovan, lutar $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, så du har rätt i att intitera att Pearson ”s $ r $ är relaterat till lutningen, men bara när det justeras enligt standardavvikelserna (vilket effektivt återställer måtten och skalorna!).
Först tyckte jag att det var konstigt att formeln verkar föreslå en löst monterad linje (låg $ r $) resulterar i en lägre lutning; sedan plottade jag ett exempel och insåg att med tanke på en lutning varierar ”lösheten” att $ r $ minskar men detta uppvägs av en proportionell ökning av $ \ sigma_ {y} $.
I diagrammet nedan plottas fyra $ x, y $ datasatser:
- resultaten av $ y = 3x $ (så gradient $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2,89 $, $ \ sigma_ {y} = 8,66 $) … notera att $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- samma men varieras med ett slumpmässigt tal, med $ r = 0.2447 $, $ \ sigma_ {x} = 2.89 $, $ \ sigma_ {y} = 34.69 $, som vi kan beräkna $ b = 2,94 $
- $ y = 15x $ (så $ b = 15 $ och $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
- samma som ( 2) men med reducerat intervall $ x $ så $ b = 14,70 $ (och fortfarande $ r = 0,2444 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $)
Det kan ses att varians påverkar $ r $ utan att nödvändigtvis påverka $ b $ och måttenheter kan påverka skalan och därmed $ b $ utan att påverka $ r $