Mi sarei aspettato che il coefficiente di correlazione fosse lo stesso di una pendenza di regressione (beta), tuttavia, avendo appena confrontato i due, sono diversi. In cosa differiscono: quali informazioni differenti danno?
Commenti
- se sono normalizzati, sono la stessa cosa. ma pensa a cosa succede quando modifichi le unità …
- Penso che le risposte con il punteggio più alto a questa domanda (e forse anche my A dove mostro che il coefficiente di correlazione può essere visto come il valore assoluto della media geometrica delle due pendenze che otteniamo se regrediamo y su x e x su y, rispettivamente) sono rilevanti anche qui
Risposta
Supponendo che tu stia parlando di un semplice modello di regressione $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ stimato dai minimi quadrati, sappiamo da wikipedia che $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Quindi i due coincidono solo quando $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Cioè, coincidono solo quando le due variabili sono sulla stessa scala, in un certo senso. Il modo più comune per raggiungere questo obiettivo è attraverso la standardizzazione, come indicato da @gung .
I due, in s ome sense ti fornisce le stesse informazioni: ognuna ti dice la forza della relazione lineare tra $ X_i $ e $ Y_i $ . Ma ciascuno di essi ti fornisce informazioni distinte (tranne, ovviamente, quando sono esattamente uguali):
-
La correlazione ti dà una misura limitata che può essere interpretata indipendentemente dalla scala delle due variabili. Più la correlazione stimata è vicina a $ \ pm 1 $, più i due sono vicini a una relazione lineare perfetta . La pendenza di regressione, da sola, non ti dice quellinformazione.
-
La pendenza di regressione fornisce una quantità utile interpretata come la variazione stimata nel valore atteso di $ Y_i $ per un dato valore di $ X_i $. Nello specifico, $ \ hat \ beta $ indica la variazione del valore atteso di $ Y_i $ corrispondente a un aumento di 1 unità in $ X_i $. Questa informazione non può essere dedotta dal solo coefficiente di correlazione.
Commenti
- Come corollario di questa risposta, nota che la regressione di x contro y non è linverso della regressione y contro x!
Risposta
Con una semplice regressione lineare (cioè solo 1 covariata), la pendenza $ \ beta_1 $ è uguale a $ r $ di Pearson se entrambe le variabili fossero standardizzate per prime. (Per ulteriori informazioni, potresti trovare la mia risposta qui utile.) Quando esegui la regressione multipla, questo può essere più complicato a causa della multicollinearità , ecc.
Commenti
- Nella regressione lineare semplice, come mostra Macro, sopra, $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. Cè un espressione analoga per la regressione multipla? Sembra che non ci sia ‘ t per il motivo per cui ‘ stai arrivando con ” multicollinearity, ” ma io pensi che intendevi davvero covarianza qui?
- @Iamanon, prova a leggere: Regressione multipla o coefficiente di correlazione parziale? E le relazioni tra i due .
Risposta
Il coefficiente di correlazione misura la “tenuta” della relazione lineare tra due variabili ed è limitato tra -1 e 1, inclusi. Le correlazioni vicine allo zero non rappresentano alcuna associazione lineare tra le variabili, mentre le correlazioni vicine a -1 o +1 indicano una forte relazione lineare. Intuitivamente, più è facile tracciare una linea che meglio si adatta attraverso un grafico a dispersione, più sono correlate.
La pendenza di regressione misura la “pendenza” della relazione lineare tra due variabili e può assumere qualsiasi valore da $ – \ infty $ a $ + \ infty $. Pendenze prossime allo zero indicano che la variabile di risposta (Y) cambia lentamente al variare della variabile predittore (X). Pendenze più lontane dallo zero (in direzione negativa o positiva) indicano che la risposta cambia più rapidamente al variare del predittore. Intuitivamente, se dovessi tracciare una linea che meglio si adatta attraverso un grafico a dispersione, più è ripida, più è lontana la tua pendenza da zero.
Quindi il coefficiente di correlazione e la pendenza di regressione DEVONO avere lo stesso segno (+ o -), ma non avranno quasi mai lo stesso valore.
Per semplicità, questa risposta presuppone una semplice regressione lineare.
Commenti
- si indica che beta può essere in $ – \ inf, \ inf $, ma ‘ non esiste un limite caso per caso al beta implicito dal rapporto di varianza di x e y?
Risposta
Il coefficiente di correlazione di Pearson è adimensionale e scalato tra -1 e 1 indipendentemente dalla dimensione e dalla scala delle variabili di input.
Se (ad esempio) inserisci una massa in grammi o chilogrammi, non fa differenza per il valore di $ r $, mentre questo farà una differenza enorme per il gradiente / pendenza (che ha dimensione ed è scalato di conseguenza … allo stesso modo, non farebbe differenza in $ r $ se la scala fosse regolata in qualche modo, incluso lutilizzo di libbre o tonnellate).
Una semplice dimostrazione (mi scuso per lutilizzo di Python!):
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
mostra che $ r = 0.969363 $ anche se la pendenza è stata aumentata di un fattore 10.
Devo confessare che “è un bel trucco che $ r $ venga scalato tra -1 e 1 (uno di quei casi in cui il numeratore non può mai avere un valore assoluto maggiore del denominatore).
Come @Macro ha spiegato sopra, pendenza $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, quindi hai ragione nellintuire che Pearson “s $ r $ è correlato alla pendenza, ma solo se regolato in base alle deviazioni standard (che ripristina efficacemente le dimensioni e le scale!).
Allinizio ho pensato che fosse strano che la formula sembri suggerire che una linea vagamente adattata ($ r $ basso) si traduce in un gradiente inferiore; quindi ho tracciato un esempio e mi sono reso conto che dato un gradiente, variando la “scioltezza” si ottiene una diminuzione di $ r $, ma questo è compensato da un aumento proporzionale di $ \ sigma_ {y} $.
Nel grafico di seguito, vengono tracciati quattro set di dati $ x, y $:
- i risultati di $ y = 3x $ (quindi gradiente $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2,89 $, $ \ sigma_ {y} = 8,66 $) … nota che $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- lo stesso ma variato da un numero casuale, con $ r = 0,2447 $, $ \ sigma_ {x} = 2,89 $, $ \ sigma_ {y} = 34,69 $, da cui possiamo calcolare $ b = 2,94 $
- $ y = 15x $ (quindi $ b = 15 $ e $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
- lo stesso di ( 2) ma con intervallo ridotto $ x $ quindi $ b = 14,70 $ (e ancora $ r = 0,2447 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $)
Si può vedere che la varianza influisce su $ r $ senza necessariamente influire su $ b $ e le unità di misura possono influenzare la scala e quindi $ b $ senza influenzare $ r $