Kuinka korrelaatiokerroin eroaa regressiokaltevuudesta?

Olisin odottanut korrelaatiokertoimen olevan sama kuin regressiokaltevuus (beeta), mutta vaikka olisin juuri vertaillut näitä kahta, ne ovat erilaisia. Kuinka ne eroavat – mitä erilaisia tietoja he antavat?

Kommentit

  • jos ne normalisoidaan, ne ovat samat. mutta ajattele mitä tapahtuu, kun muutat yksiköitä …
  • Luulen, että parhaat pisteet vastaavat tähän kysymykseen (ja ehkä jopa my A sille, missä osoitan, että korrelaatiokerroin voidaan nähdä kahden laskemamme kaltevuuden geometrisen keskiarvon absoluuttisena arvona, jos saavutamme regressin y x: llä ja x y: llä) ovat myös merkityksellisiä tässä.

Vastaa

Oletetaan, että puhut yksinkertaisesta regressiomalli $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ pienimmän neliösumman arvioimana, tiedämme wikipediasta , että $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Siksi nämä kaksi kohtaavat vain, kun $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Toisin sanoen ne ovat vain yhtä aikaa, kun nämä kaksi muuttujaa ovat jossain mielessä samassa mittakaavassa. Yleisin tapa saavuttaa tämä on standardointi, kuten @gung osoittaa. .

Kaksi, s ome sense antaa sinulle samat tiedot – kukin kertoo sinulle lineaarisen suhteen vahvuuden $ X_i $: n ja $ Y_i $: n välillä . Mutta kukin antaa sinulle erillisen tiedon (paitsi tietysti silloin, kun ne ovat täsmälleen samat):

  • Korrelaatio antaa sinulle rajatun mittauksen, joka voidaan tulkita riippumatta kahden muuttujan asteikko. Mitä lähempänä arvioitu korrelaatio on $ \ pm 1 $, , sitä lähempänä nämä kaksi ovat täydelliseen lineaariseen suhteeseen . Regressiokaltevuus, erikseen, ei kerro sinulle tätä tietoa.

  • Regressiokaltevuus antaa hyödyllisen määrän, joka tulkitaan arvioiduksi muutokseksi odotettavissa olevassa $ Y_i $ -arvossa tietylle arvolle $ X_i $. Erityisesti $ \ hat \ beta $ kertoo muutoksen odotettavissa olevassa $ Y_i $ -arvossa, mikä vastaa yhden yksikön lisäystä $ X_i $: ssa. Tätä tietoa ei voida päätellä pelkästään korrelaatiokertoimesta.

kommentit

  • Tämän vastauksen seurauksena huomaa, että x: n regressio y: tä vastaan ei ole regressoinnin käänteinen y vastaan x!

Vastaa

Yksinkertaisella lineaarisella regressiolla (eli vain 1 kovariaatti) kaltevuus $ \ beta_1 $ on sama kuin Pearsonin $ r $, jos molemmat muuttujat standardisoitiin ensin. (Saat lisätietoja vastauksestani täältä hyödyllinen.) Kun teet useita regressioita, tämä voi olla monimutkaisempaa johtuen jne.

Kommentit

vastaus

korrelaatiokerroin mittaa lineaarisen suhteen ”tiiviyttä” kahden muuttujan välillä ja on rajattu välillä -1 ja 1, mukaan lukien. Lähellä nollaa olevat korrelaatiot eivät ole lineaarista yhteyttä muuttujien välillä, kun taas korrelaatiot lähellä arvoa -1 tai +1 osoittavat vahvaa lineaarista suhdetta. Intuitiivisesti, mitä helpompaa sinulle on piirtää parhaiten sopiva viiva hajontapiirroksen läpi, sitä enemmän ne korreloivat.

regressiokaltevuus mittaa ”jyrkkyyttä” kahden muuttujan välisestä lineaarisesta suhteesta ja voi ottaa minkä tahansa arvon välillä $ – \ infty $ – $ + \ infty $. Kaltevuudet lähellä nollaa tarkoittavat, että vastemuuttuja (Y) muuttuu hitaasti, kun ennustaja (X) muuttuja muuttuu. Rinteet, jotka ovat kauempana nollasta (joko negatiivisessa tai positiivisessa suunnassa) tarkoittavat, että vaste muuttuu nopeammin ennustajan muuttuessa. Intuitiivisesti, jos piirtäisit parhaiten sopivan viivan hajontapiirin läpi, mitä jyrkempi se on, sitä kauempana kaltevuus on nollasta.

Korrelaatiokertoimella ja regressiokaltevuudella PITÄÄ siis olla sama merkki (+ tai -), mutta melkein koskaan ei ole sama arvo.

Yksinkertaisuuden vuoksi tässä vastauksessa oletetaan yksinkertainen lineaarinen regressio.

Kommentit

  • ilmoitat, että beeta voi olla $ – \ inf, \ inf $, mutta eikö ’ t ole tapauskohtaisesti sidottu beetaan, mikä johtuu x: n ja y: n varianssisuhteesta?

vastaus

Pearsonin korrelaatiokerroin on dimensioton ja skaalattu välillä -1 ja 1 riippumatta tulomuuttujien ulottuvuudesta ja asteikosta.

Jos syötät esimerkiksi massan grammoina tai kilogrammoina, sillä ei ole mitään eroa arvoon $ r $, kun taas tällä on valtava ero kaltevuuteen / kaltevuuteen (jolla on ulottuvuus ja joka on skaalattu vastaavasti … samoin $ r $: lla ei ole merkitystä, jos asteikkoa muutetaan millään tavalla, mukaan lukien punnan tai tonnin käyttö).

Yksinkertainen esittely (anteeksipyyntö Pythonin käytöstä!):

import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1] 

osoittaa, että $ r = 0,969363 $, vaikka kaltevuutta on lisätty kertoimella 10.

Minun on tunnustettava, että se on siisti temppu, että $ r $ skaalataan välille -1 ja 1 (yksi niistä tapauksista, joissa osoittajan absoluuttinen arvo ei voi koskaan olla suurempi kuin nimittäjä).

Kuten @Macro on kuvannut yllä, kaltevuus $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $, joten olet oikeassa intuitioitessasi, että Pearsonin s $ r $ liittyy kaltevuuteen, mutta vain säädettynä standardipoikkeamien mukaan (mikä palauttaa mitat ja mittakaavat tehokkaasti!).

Aluksi ajattelin outoa, että kaava näyttää viittaavan löyhästi sovitettuun viivaan (matala $ r $) johtaa pienempään kaltevuuteen; sitten piirrin esimerkin ja huomasin, että kun annettiin liukuvärjäys, ”löysyyden” vaihtelu johtaa $ r $: n vähenemiseen, mutta tämän kompensoi $ \ sigma_ {y} $: n suhteellinen kasvu.

Kaaviossa alla on piirretty neljä $ x, y $ -tietojoukkoa:

  1. $ y = 3x $ -tulokset (joten kaltevuus $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2,89 $, $ \ sigma_ {y} = 8,66 $) … Huomaa, että $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
  2. sama, mutta vaihtelee satunnaisluvulla, kun $ r = 0,2447 $, $ \ sigma_ {x} = 2,89 $, $ \ sigma_ {y} = 34,69 $, josta voimme laskea $ b = 2,94 $
  3. $ y = 15x $ (joten $ b = 15 $ ja $ r = 1 $, $ \ sigma_ {x} = 0.58 $, $ \ sigma_ {y} = 8.66 $)
  4. sama kuin ( 2) mutta pienennetyllä alueella $ x $, joten $ b = 14,70 $ (ja silti $ r = 0,2447 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $) korrelaatio ja gradientti

Voidaan todeta, että varianssi vaikuttaa dollariin $ r $ vaikuttamatta välttämättä dollariin b $, ja mittayksiköt voivat vaikuttaa mittakaavaan ja siten $ b $ vaikuttamatta $ r $

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *