In che modo il coefficiente di correlazione differisce dalla pendenza di regressione?

Mi sarei aspettato che il coefficiente di correlazione fosse lo stesso di una pendenza di regressione (beta), tuttavia, avendo appena confrontato i due, sono diversi. In cosa differiscono: quali informazioni differenti danno?

Commenti

  • se sono normalizzati, sono la stessa cosa. ma pensa a cosa succede quando modifichi le unità …
  • Penso che le risposte con il punteggio più alto a questa domanda (e forse anche my A dove mostro che il coefficiente di correlazione può essere visto come il valore assoluto della media geometrica delle due pendenze che otteniamo se regrediamo y su x e x su y, rispettivamente) sono rilevanti anche qui

Risposta

Supponendo che tu stia parlando di un semplice modello di regressione $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ stimato dai minimi quadrati, sappiamo da wikipedia che $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Quindi i due coincidono solo quando $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Cioè, coincidono solo quando le due variabili sono sulla stessa scala, in un certo senso. Il modo più comune per raggiungere questo obiettivo è attraverso la standardizzazione, come indicato da @gung .

I due, in s ome sense ti fornisce le stesse informazioni: ognuna ti dice la forza della relazione lineare tra $ X_i $ e $ Y_i $ . Ma ciascuno di essi ti fornisce informazioni distinte (tranne, ovviamente, quando sono esattamente uguali):

  • La correlazione ti dà una misura limitata che può essere interpretata indipendentemente dalla scala delle due variabili. Più la correlazione stimata è vicina a $ \ pm 1 $, più i due sono vicini a una relazione lineare perfetta . La pendenza di regressione, da sola, non ti dice quellinformazione.

  • La pendenza di regressione fornisce una quantità utile interpretata come la variazione stimata nel valore atteso di $ Y_i $ per un dato valore di $ X_i $. Nello specifico, $ \ hat \ beta $ indica la variazione del valore atteso di $ Y_i $ corrispondente a un aumento di 1 unità in $ X_i $. Questa informazione non può essere dedotta dal solo coefficiente di correlazione.

Commenti

  • Come corollario di questa risposta, nota che la regressione di x contro y non è linverso della regressione y contro x!

Risposta

Con una semplice regressione lineare (cioè solo 1 covariata), la pendenza $ \ beta_1 $ è uguale a $ r $ di Pearson se entrambe le variabili fossero standardizzate per prime. (Per ulteriori informazioni, potresti trovare la mia risposta qui utile.) Quando esegui la regressione multipla, questo può essere più complicato a causa della , ecc.

Commenti

Risposta

Il coefficiente di correlazione misura la “tenuta” della relazione lineare tra due variabili ed è limitato tra -1 e 1, inclusi. Le correlazioni vicine allo zero non rappresentano alcuna associazione lineare tra le variabili, mentre le correlazioni vicine a -1 o +1 indicano una forte relazione lineare. Intuitivamente, più è facile tracciare una linea che meglio si adatta attraverso un grafico a dispersione, più sono correlate.

La pendenza di regressione misura la “pendenza” della relazione lineare tra due variabili e può assumere qualsiasi valore da $ – \ infty $ a $ + \ infty $. Pendenze prossime allo zero indicano che la variabile di risposta (Y) cambia lentamente al variare della variabile predittore (X). Pendenze più lontane dallo zero (in direzione negativa o positiva) indicano che la risposta cambia più rapidamente al variare del predittore. Intuitivamente, se dovessi tracciare una linea che meglio si adatta attraverso un grafico a dispersione, più è ripida, più è lontana la tua pendenza da zero.

Quindi il coefficiente di correlazione e la pendenza di regressione DEVONO avere lo stesso segno (+ o -), ma non avranno quasi mai lo stesso valore.

Per semplicità, questa risposta presuppone una semplice regressione lineare.

Commenti

  • si indica che beta può essere in $ – \ inf, \ inf $, ma ‘ non esiste un limite caso per caso al beta implicito dal rapporto di varianza di x e y?

Risposta

Il coefficiente di correlazione di Pearson è adimensionale e scalato tra -1 e 1 indipendentemente dalla dimensione e dalla scala delle variabili di input.

Se (ad esempio) inserisci una massa in grammi o chilogrammi, non fa differenza per il valore di $ r $, mentre questo farà una differenza enorme per il gradiente / pendenza (che ha dimensione ed è scalato di conseguenza … allo stesso modo, non farebbe differenza in $ r $ se la scala fosse regolata in qualche modo, incluso lutilizzo di libbre o tonnellate).

Una semplice dimostrazione (mi scuso per lutilizzo di Python!):

import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1] 

mostra che $ r = 0.969363 $ anche se la pendenza è stata aumentata di un fattore 10.

Devo confessare che “è un bel trucco che $ r $ venga scalato tra -1 e 1 (uno di quei casi in cui il numeratore non può mai avere un valore assoluto maggiore del denominatore).

Come @Macro ha spiegato sopra, pendenza $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, quindi hai ragione nellintuire che Pearson “s $ r $ è correlato alla pendenza, ma solo se regolato in base alle deviazioni standard (che ripristina efficacemente le dimensioni e le scale!).

Allinizio ho pensato che fosse strano che la formula sembri suggerire che una linea vagamente adattata ($ r $ basso) si traduce in un gradiente inferiore; quindi ho tracciato un esempio e mi sono reso conto che dato un gradiente, variando la “scioltezza” si ottiene una diminuzione di $ r $, ma questo è compensato da un aumento proporzionale di $ \ sigma_ {y} $.

Nel grafico di seguito, vengono tracciati quattro set di dati $ x, y $:

  1. i risultati di $ y = 3x $ (quindi gradiente $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2,89 $, $ \ sigma_ {y} = 8,66 $) … nota che $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
  2. lo stesso ma variato da un numero casuale, con $ r = 0,2447 $, $ \ sigma_ {x} = 2,89 $, $ \ sigma_ {y} = 34,69 $, da cui possiamo calcolare $ b = 2,94 $
  3. $ y = 15x $ (quindi $ b = 15 $ e $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
  4. lo stesso di ( 2) ma con intervallo ridotto $ x $ quindi $ b = 14,70 $ (e ancora $ r = 0,2447 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $) correlazione e gradiente

Si può vedere che la varianza influisce su $ r $ senza necessariamente influire su $ b $ e le unità di misura possono influenzare la scala e quindi $ b $ senza influenzare $ r $

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *