Arra számítottam volna, hogy a korrelációs együttható megegyezik a regressziós meredekséggel (béta), azonban a kettőt csak összehasonlítva különböznek egymástól. Hogyan különböznek egymástól – milyen különböző információkat adnak meg?
Megjegyzések
- ha normalizálják őket, akkor ugyanazok. de gondolj arra, hogy mi történik, ha egységet cserélsz …
- Szerintem a legjobb pontszámot kitöltő válaszok erre a kérdésre (és talán még az is előfordulhatnak, hogy erre a kérdésre ) my A hozzá, ahol megmutatom, hogy a korrelációs együttható a két lejtő geometriai átlagának abszolút értékének tekinthető, amelyet akkor kapunk, ha y-re regresszáljuk x-et és x az y-on) itt is relevánsak
Válasz
Feltételezve, hogy egy egyszerű regressziós modell $$ Y_i = \ alpha + \ beta X_i + \ varepsilon_i $$ a legkisebb négyzetekkel becsülve, tudjuk a wikipédiából , hogy $$ \ hat {\ beta } = {\ rm cor} (Y_i, X_i) \ cdot \ frac {{\ rm SD} (Y_i)} {{\ rm SD} (X_i)} $$ Ezért a kettő csak akkor esik egybe, ha $ {\ rm SD} (Y_i) = {\ rm SD} (X_i) $. Vagyis csak akkor esnek egybe, ha a két változó bizonyos értelemben azonos skálán van. Ennek elérésére a leggyakoribb módszer a szabványosítás, amint azt @gung jelzi .
A kettő, s-ben Az ome sense ugyanazt az információt adja meg – mindegyik megmondja a lineáris kapcsolat erősségét $ X_i $ és $ Y_i $ között . De mindegyik külön információt szolgáltat Önnek (kivéve természetesen, ha pontosan megegyeznek):
-
A korreláció korlátozott mérést ad, amelyet a a két változó skálája. Minél közelebb van a becsült korreláció a $ \ pm 1 $ -hoz, , annál közelebb van a kettő egy tökéletes lineáris kapcsolathoz . A regresszió meredeksége önmagában nem mondja el ezt az információt.
-
A regresszió meredeksége hasznos mennyiséget ad, amelyet a $ Y_i $ várható értékének becsült változásaként kell értelmezni egy adott $ X_i $ értéknél. Pontosabban, a $ \ hat \ beta $ megmondja a $ Y_i $ várható értékének változását, ami megfelel a $ X_i $ 1 egységnyi növekedésének. Ez az információ önmagában a korrelációs együtthatóból nem vezethető le.
Megjegyzések
- Ennek a válasznak a következményeként vegye figyelembe, hogy az x regressziója y ellen nem a regresszió inverze y az x ellen!
Válasz
Egyszerű lineáris regresszióval (azaz csak 1 kovariáns) a $ meredekség A \ beta_1 $ megegyezik Pearson “$ r $ -jával”, ha mindkét változót először szabványosították . (További információért itt találhatja meg a válaszomat hasznos.) Ha többszörös regressziót hajt végre, ez bonyolultabb lehet a multikollinearitás stb. miatt.
Megjegyzések
- Egyszerű lineáris regresszióban, amint a Makró fent mutatja, $ \ hat {\ beta} = r_ {xy} \ frac {s_y} {s_x} $. Van-e analóg kifejezés a többszörös regresszióhoz? Úgy tűnik, nincs ‘ t azért az okból, ha ‘ a multikollinearitás, ” de én szerinted itt valóban a kovarianciára gondoltál?
- @Iamanon, próbáld meg elolvasni: Többszörös regresszió vagy részleges korrelációs együttható? És a kettő közötti kapcsolatok .
Válasz
A korrelációs együttható méri a lineáris kapcsolat “szorosságát” két változó között van, és -1 és 1 közé esik, ideértve. A nullához közeli korrelációk nem jelentenek lineáris összefüggést a változók között, míg a -1 vagy +1 közeli korrelációk erős lineáris kapcsolatot mutatnak. Intuitív módon annál könnyebben rajzolhatod meg a legjobban illeszkedő vonalat egy szórványterületen, annál jobban korrelálnak.
A regresszió meredeksége méri a “meredekséget” A két változó közötti lineáris kapcsolat értéke bármely értéket felvehet $ – \ infty $ és $ + \ infty $ között. A nulla közeli lejtők azt jelentik, hogy a válasz (Y) változó lassan változik, ahogy a prediktor (X) változó változik. A nullától távolabb eső lejtők (akár negatív, akár pozitív irányban) azt jelentik, hogy a válasz a prediktor változásával gyorsabban változik. Intuitív módon, ha a legjobban illeszkedő vonalat rajzolna egy szóródiagramon keresztül, minél meredekebb, annál inkább lejtője van nullától.
Tehát a korrelációs együtthatónak és a regressziós meredekségnek KELL lennie azonos előjelnek (+ vagy -), de szinte soha nem lesz ugyanaz az értéke.
Az egyszerűség kedvéért ez a válasz egyszerű lineáris regressziót feltételez.
Megjegyzések
- jelzi, hogy a béta lehet $ – \ inf, \ inf $, de nincs ‘ nincs eseti eset a bétához kötve, az x és y varianciaarányának implikációjával?
Válasz
Pearson korrelációs együtthatója dimenzió nélküli, és -1 és 1 közé skálázódik, függetlenül a bemeneti változók dimenziójától és skálájától.
Ha (például) grammban vagy kilogrammban ad meg egy tömeget, akkor nincs különbség a $ r $ értékében, míg ez óriási különbséget jelent a gradiens / meredekségnél (amelynek dimenziója van, és ennek megfelelően méretezik … hasonlóképpen nem lenne különbség a $ r $ -nál, ha a skálát bármilyen módon módosítják, ideértve font vagy tonna helyett is.
Egyszerű bemutató (elnézést a Python használatáért!):
import numpy as np x = [10, 20, 30, 40] y = [3, 5, 10, 11] np.corrcoef(x,y)[0][1] x = [1, 2, 3, 4] np.corrcoef(x,y)[0][1]
azt mutatja, hogy $ r = 0,969363 $, annak ellenére, hogy a meredekséget 10.
Be kell vallanom, hogy ez egy egyszerű trükk, hogy a $ r $ -ot -1 és 1 közé kell skálázni (egyike azoknak az eseteknek, amikor a számlálónak soha nem lehet nagyobb a nevezőnél az abszolút értéke).
Amint a @Macro fentebb részletezte, a $ b = r (\ frac {\ sigma_ {y}} {\ sigma_ {x}}) $ lejtés, tehát helyesen értelmezi, hogy Pearson s $ r A $ összefügg a meredekséggel, de csak akkor, ha a szórásoknak megfelelően állítják be (ami hatékonyan helyreállítja a méreteket és a méretarányokat!).
Eleinte furcsának gondoltam, hogy a képlet egy lazán illeszkedő vonalra utal (alacsony $ r $) alacsonyabb gradienst eredményez; majd felrajzoltam egy példát, és rájöttem, hogy adott gradiens esetén a “lazaság” megváltoztatása $ r $ csökkenést eredményez, de ezt ellensúlyozza a $ \ sigma_ {y} $ arányos növekedése.
A diagramban az alábbiakban négy $ x, y $ adatkészlet látható:
- $ y = 3x $ eredményei (tehát gradiens $ b = 3 $, $ r = 1 $, $ \ sigma_ {x } = 2.89 $, $ \ sigma_ {y} = 8.66 $) … vegye figyelembe, hogy a $ \ frac {\ sigma_ {y}} {\ sigma_ {x}} = 3 $
- ugyanaz, de véletlenszámmal variálva, $ r = 0,2447 $, $ \ sigma_ {x} = 2,89 $, $ \ sigma_ {y} = 34,69 $, amelyből kiszámíthatjuk a $ b = 2,94 $
- $ y = 15x $ (tehát $ b = 15 $ és $ r = 1 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 8,66 $)
- ugyanaz, mint ( 2), de csökkentett tartományban $ x $ tehát $ b = 14,70 $ (és még mindig $ r = 0,2447 $, $ \ sigma_ {x} = 0,58 $, $ \ sigma_ {y} = 34,69 $)
Látható, hogy a variancia hatással van a $ r $ -ra anélkül, hogy szükségszerűen befolyásolná a $ -ot b $, és a mértékegységek befolyásolhatják a méretarányt és így a $ b $ értéket anélkül, hogy befolyásolnák a $ r $
-t