Miben különbözik a korrelációs együttható a regressziós meredekségtől?

Arra számítottam volna, hogy a korrelációs együttható megegyezik a regressziós meredekséggel (béta), azonban a kettőt csak összehasonlítva különböznek egymástól. Hogyan különböznek egymástól – milyen különböző információkat adnak meg?

Megjegyzések

  • ha normalizálják őket, akkor ugyanazok. de gondolj arra, hogy mi történik, ha egységet cserélsz …
  • Szerintem a legjobb pontszámot kitöltő válaszok erre a kérdésre (és talán még az is előfordulhatnak, hogy erre a kérdésre ) my A hozzá, ahol megmutatom, hogy a korrelációs együttható a két lejtő geometriai átlagának abszolút értékének tekinthető, amelyet akkor kapunk, ha y-re regresszáljuk x-et és x az y-on) itt is relevánsak

Válasz

Feltételezve, hogy egy egyszerű regressziós modell $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ a legkisebb négyzetekkel becsülve, tudjuk a wikipédiából , hogy $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Ezért a kettő csak akkor esik egybe, ha $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Vagyis csak akkor esnek egybe, ha a két változó bizonyos értelemben azonos skálán van. Ennek elérésére a leggyakoribb módszer a szabványosítás, amint azt @gung jelzi .

A kettő, s-ben Az ome sense ugyanazt az információt adja meg – mindegyik megmondja a lineáris kapcsolat erősségét $ X_i $ és $ Y_i $ között . De mindegyik külön információt szolgáltat Önnek (kivéve természetesen, ha pontosan megegyeznek):

  • A korreláció korlátozott mérést ad, amelyet a a két változó skálája. Minél közelebb van a becsült korreláció a $ \ pm 1 $ -hoz, , annál közelebb van a kettő egy tökéletes lineáris kapcsolathoz . A regresszió meredeksége önmagában nem mondja el ezt az információt.

  • A regresszió meredeksége hasznos mennyiséget ad, amelyet a $ Y_i $ várható értékének becsült változásaként kell értelmezni egy adott $ X_i $ értéknél. Pontosabban, a $ \ hat \ beta $ megmondja a $ Y_i $ várható értékének változását, ami megfelel a $ X_i $ 1 egységnyi növekedésének. Ez az információ önmagában a korrelációs együtthatóból nem vezethető le.

Megjegyzések

  • Ennek a válasznak a következményeként vegye figyelembe, hogy az x regressziója y ellen nem a regresszió inverze y az x ellen!

Válasz

Egyszerű lineáris regresszióval (azaz csak 1 kovariáns) a $ meredekség A \ beta_1 $ megegyezik Pearson “$ r $ -jával”, ha mindkét változót először szabványosították . (További információért itt találhatja meg a válaszomat hasznos.) Ha többszörös regressziót hajt végre, ez bonyolultabb lehet a stb. miatt.

Megjegyzések

Válasz

A korrelációs együttható méri a lineáris kapcsolat “szorosságát” két változó között van, és -1 és 1 közé esik, ideértve. A nullához közeli korrelációk nem jelentenek lineáris összefüggést a változók között, míg a -1 vagy +1 közeli korrelációk erős lineáris kapcsolatot mutatnak. Intuitív módon annál könnyebben rajzolhatod meg a legjobban illeszkedő vonalat egy szórványterületen, annál jobban korrelálnak.

A regresszió meredeksége méri a “meredekséget” A két változó közötti lineáris kapcsolat értéke bármely értéket felvehet $ – \ infty $ és $ + \ infty $ között. A nulla közeli lejtők azt jelentik, hogy a válasz (Y) változó lassan változik, ahogy a prediktor (X) változó változik. A nullától távolabb eső lejtők (akár negatív, akár pozitív irányban) azt jelentik, hogy a válasz a prediktor változásával gyorsabban változik. Intuitív módon, ha a legjobban illeszkedő vonalat rajzolna egy szóródiagramon keresztül, minél meredekebb, annál inkább lejtője van nullától.

Tehát a korrelációs együtthatónak és a regressziós meredekségnek KELL lennie azonos előjelnek (+ vagy -), de szinte soha nem lesz ugyanaz az értéke.

Az egyszerűség kedvéért ez a válasz egyszerű lineáris regressziót feltételez.

Megjegyzések

  • jelzi, hogy a béta lehet $ – \ inf, \ inf $, de nincs ‘ nincs eseti eset a bétához kötve, az x és y varianciaarányának implikációjával?

Válasz

Pearson korrelációs együtthatója dimenzió nélküli, és -1 és 1 közé skálázódik, függetlenül a bemeneti változók dimenziójától és skálájától.

Ha (például) grammban vagy kilogrammban ad meg egy tömeget, akkor nincs különbség a $ r $ értékében, míg ez óriási különbséget jelent a gradiens / meredekségnél (amelynek dimenziója van, és ennek megfelelően méretezik … hasonlóképpen nem lenne különbség a $ r $ -nál, ha a skálát bármilyen módon módosítják, ideértve font vagy tonna helyett is.

Egyszerű bemutató (elnézést a Python használatáért!):

import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1] 

azt mutatja, hogy $ r = 0,969363 $, annak ellenére, hogy a meredekséget 10.

Be kell vallanom, hogy ez egy egyszerű trükk, hogy a $ r $ -ot -1 és 1 közé kell skálázni (egyike azoknak az eseteknek, amikor a számlálónak soha nem lehet nagyobb a nevezőnél az abszolút értéke).

Amint a @Macro fentebb részletezte, a $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $ lejtés, tehát helyesen értelmezi, hogy Pearson s $ r A $ összefügg a meredekséggel, de csak akkor, ha a szórásoknak megfelelően állítják be (ami hatékonyan helyreállítja a méreteket és a méretarányokat!).

Eleinte furcsának gondoltam, hogy a képlet egy lazán illeszkedő vonalra utal (alacsony $ r $) alacsonyabb gradienst eredményez; majd felrajzoltam egy példát, és rájöttem, hogy adott gradiens esetén a “lazaság” megváltoztatása $ r $ csökkenést eredményez, de ezt ellensúlyozza a $ \ sigma_ {y} $ arányos növekedése.

A diagramban az alábbiakban négy $ x, y $ adatkészlet látható:

  1. $ y = 3x $ eredményei (tehát gradiens $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2.89 $, $ \ sigma_ {y} = 8.66 $) … vegye figyelembe, hogy a $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
  2. ugyanaz, de véletlenszámmal variálva, $ r = 0,2447 $, $ \ sigma_ {x} = 2,89 $, $ \ sigma_ {y} = 34,69 $, amelyből kiszámíthatjuk a $ b = 2,94 $
  3. $ y = 15x $ (tehát $ b = 15 $ és $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
  4. ugyanaz, mint ( 2), de csökkentett tartományban $ x $ tehát $ b = 14,70 $ (és még mindig $ r = 0,2447 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $) összefüggés és színátmenet

Látható, hogy a variancia hatással van a $ r $ -ra anélkül, hogy szükségszerűen befolyásolná a $ -ot b $, és a mértékegységek befolyásolhatják a méretarányt és így a $ b $ értéket anélkül, hogy befolyásolnák a $ r $

-t

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük