Cum diferă coeficientul de corelație de panta de regresie?

M-aș fi așteptat ca coeficientul de corelație să fie același cu o pantă de regresie (beta), totuși tocmai comparând cele două, acestea sunt diferite. Cum diferă – ce informații diferite oferă?

Comentarii

  • dacă sunt normalizate, sunt aceleași. dar gândiți-vă la ce se întâmplă când schimbați unitățile …
  • Cred că cel mai bun punctaj răspunde la acest Q (și poate chiar A la acesta unde arăt că coeficientul de corelație poate fi văzut ca valoarea absolută a mediei geometrice a celor două pante pe care le obținem dacă regresăm y pe x și x pe y, respectiv) sunt relevante și aici

Răspuns

Presupunând că vorbești despre un simplu modelul de regresie $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ estimat de cele mai mici pătrate, știm din Wikipedia că $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Prin urmare, cele două coincid doar când $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Adică, ele coincid doar atunci când cele două variabile sunt pe aceeași scară, într-un anumit sens. Cel mai comun mod de a realiza acest lucru este prin standardizare, așa cum este indicat de @gung .

Cei doi, în s simțul vă oferă aceleași informații – fiecare vă spune puterea relației liniare între $ X_i $ și $ Y_i $ . Dar, fiecare vă oferă informații distincte (cu excepția, desigur, atunci când sunt exact la fel):

  • Corelația vă oferă o măsurare mărginită care poate fi interpretată independent de scara celor două variabile. Cu cât corelația estimată este mai apropiată de $ \ pm 1 $, cu atât cele două sunt mai aproape de o relație liniară perfectă . Panta de regresie, izolat, nu vă spune acea informație.

  • Panta de regresie oferă o cantitate utilă interpretată ca modificarea estimată a valorii așteptate de $ Y_i $ pentru o valoare dată de $ X_i $. Mai exact, $ \ hat \ beta $ vă spune schimbarea valorii așteptate de $ Y_i $ corespunzătoare unei creșteri de 1 unitate în $ X_i $. Aceste informații nu pot fi deduse numai din coeficientul de corelație.

Comentarii

  • Ca corolar al acestui răspuns, observați că regresarea x față de y nu este inversul regresării y împotriva lui x!

Răspuns

Cu regresie liniară simplă (adică doar 1 covariabil), panta $ \ beta_1 $ este același cu $ r $ al lui Pearson dacă ambele variabile au fost standardizate mai întâi. (Pentru mai multe informații, ați putea găsi răspunsul meu aici util.) Când efectuați o regresie multiplă, acest lucru poate fi mai complicat datorită etc.

Comentarii

Răspuns

coeficientul de corelație măsoară „etanșeitatea” a relației liniare între două variabile și este delimitat între -1 și 1, inclusiv. Corelațiile apropiate de zero nu reprezintă o asociere liniară între variabile, în timp ce corelațiile apropiate de -1 sau +1 indică o relație liniară puternică. Intuitiv, cu atât îți este mai ușor să trasezi o linie de potrivire optimă printr-un diagramă de dispersie, cu atât sunt mai corelate.

panta de regresie măsoară „abruptitatea” al relației liniare dintre două variabile și poate lua orice valoare de la $ – \ infty $ la $ + \ infty $. Pante aproape de zero înseamnă că variabila de răspuns (Y) se schimbă lent pe măsură ce variabila predictor (X) se schimbă. Pante care sunt mai departe de zero (fie în direcția negativă, fie în cea pozitivă) înseamnă că răspunsul se schimbă mai rapid pe măsură ce predictorul se schimbă. Intuitiv, dacă ar fi să trasezi o linie de potrivire optimă printr-un diagramă de dispersie, cu cât este mai abruptă, cu atât panta este mai mare de la zero.

Deci coeficientul de corelație și panta de regresie TREBUIE să aibă același semn (+ sau -), dar aproape niciodată nu vor avea aceeași valoare.

Pentru simplitate, acest răspuns presupune o regresie liniară simplă.

Comentarii

  • indicați că beta poate fi în $ – \ inf, \ inf $, dar nu există ‘ există un caz de caz legat de beta implicat de raportul de varianță dintre x și y?

Răspuns

Coeficientul de corelație Pearson este adimensional și scalat între -1 și 1, indiferent de dimensiunea și scala variabilelor de intrare.

Dacă (de exemplu) introduceți o masă în grame sau kilograme, aceasta nu face nicio diferență în valoarea de $ r $, în timp ce acest lucru va face o diferență extraordinară la gradientul / panta (care are dimensiune și este scalat în consecință … în mod similar, nu ar avea nicio diferență la $ r $ dacă scala este ajustată în vreun fel, inclusiv folosind în schimb lire sterline sau tone). p> O demonstrație simplă (scuze pentru utilizarea Python!):

import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1] 

arată că $ r = 0.969363 $ chiar dacă panta a fost mărită cu un factor de 10.

Trebuie să mărturisesc că „un truc elegant că $ r $ ajunge să fie scalat între -1 și 1 (unul dintre acele cazuri în care numărătorul nu poate avea niciodată o valoare absolută mai mare decât numitorul).

Așa cum a explicat @Macro mai sus, panta $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, deci aveți dreptate când intuiți că $ r al lui Pearson $ este legat de pantă, dar numai atunci când este ajustat în funcție de abaterile standard (ceea ce restabilește efectiv dimensiunile și scalele!).

La început, mi s-a părut ciudat faptul că formula pare să sugereze că o linie slab adaptată (scăzută $ r $) are ca rezultat un gradient mai mic; apoi am trasat un exemplu și mi-am dat seama că, având în vedere un gradient, modificarea „slăbiciunii” are ca rezultat o scădere a $ r $, dar aceasta este compensată de o creștere proporțională a $ \ sigma_ {y} $.

mai jos, sunt reprezentate patru seturi de date $ x, y $:

  1. rezultatele $ y = 3x $ (deci gradient $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2.89 $, $ \ sigma_ {y} = 8.66 $) … rețineți că $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
  2. la fel, dar variat cu un număr aleatoriu, cu $ r = 0.2447 $, $ \ sigma_ {x} = 2.89 $, $ \ sigma_ {y} = 34.69 $, din care putem calcula $ b = 2.94 $
  3. $ y = 15x $ (deci $ b = 15 $ și $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
  4. la fel ca ( 2) dar cu interval redus $ x $ deci $ b = 14,70 $ (și totuși $ r = 0,2447 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $) corelație și gradient

Se poate observa că varianța afectează $ r $ fără a afecta în mod necesar $ b $, iar unitățile de măsură pot afecta scala și, prin urmare, $ b $ fără a afecta $ r $

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *