Ce este covarianța în limbaj simplu și cum este legată de termenii dependență , corelație și structură varianță-covarianță în ceea ce privește proiectele cu măsuri repetate?
Comentarii
- De asemenea, de interes: " Cum ați explica covarianța cuiva care înțelege doar media? " și " Cum ați explica diferența dintre corelație și covarianță? ".
Răspuns
Covarianța este o măsură a modului în care modificările dintr-o variabilă sunt asociate cu modificările dintr-o secundă variabil. În mod specific, covarianța măsoară gradul în care două variabile sunt asociate liniar. Cu toate acestea, este adesea folosit informal ca o măsură generală a modului în care sunt monotonic legate de două variabile. Există multe explicații intuitive utile despre covarianță aici .
În ceea ce privește legătura dintre covarianță și fiecare dintre termenii pe care i-ați menționat:
(1) Corelație este o versiune scalată a covarianță care ia valori în $ [- 1,1] $ cu o corelație de $ \ pm 1 $ indicând asocierea liniară perfectă și $ 0 $ indicând nicio relație liniară. Această scalare face ca corelația să fie invariantă la schimbările de scară ale variabilelor originale, (pe care Akavall le arată și oferă un exemplu de, +1). Constanta de scalare este produsul abaterilor standard ale celor două variabile.
(2) Dacă două variabile sunt independent , covarianța lor este de 0 $. Dar, având o covarianță de 0 $, nu înseamnă că variabilele sunt independente. Această cifră (din Wikipedia)
$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ $
arată câteva exemple de grafice de date care nu sunt independente, dar covarianța lor este de 0 $. Un caz special important este acela dacă două variabile sunt distribuite în comun în mod normal, atunci sunt independenți dacă și numai dacă sunt necorelați . Un alt caz special este că perechile de variabile bernoulli sunt necorelate dacă și numai dacă sunt independente (mulțumesc @ cardinal).
(3) Structura varianță / covarianță (adesea numită pur și simplu structura de covarianță ) în proiectele de măsuri repetate se referă la structura utilizată pentru a modela faptul că măsurătorile repetate pe indivizi sunt potențial corelate (și, prin urmare, sunt dependente) – acest lucru este modelând intrările din matricea de covarianță a măsurătorilor repetate. Un exemplu este structura de corelație schimbabilă cu varianță constantă care specifică faptul că fiecare măsurare repetată are aceeași varianță și că toate perechile de măsurători sunt corelate în mod egal. O alegere mai bună poate fi specificarea unei structuri de covarianță care necesită două măsurători luate la distanță în timp pentru a fi mai puțin corelate (de exemplu, un model autoregresiv ). Rețineți că termenul de structură de covarianță apare mai general în multe tipuri de analize multivariate în care se permite corelarea observațiilor.
Comentarii
- explicația dvs. este frumoasă. Este urmat de un supliment valoros care a provocat o serie interesantă de comentarii. Mulțumesc mult tuturor :)!
Răspuns
Răspunsul macro este excelent, dar vreau să adăugați mai mult la un punct de legătură între covarianță și corelație. Covarianța nu vă spune cu adevărat despre forța relației dintre cele două variabile, în timp ce corelația. De exemplu:
x = [1, 2, 3] y = [4, 6, 10] cov(x,y) = 2 #I am using population covariance here
Acum să schimbăm scala și să înmulțim atât x, cât și y cu 10
x = [10, 20, 30] y = [40, 60, 100] cov(x, y) = 200
Schimbarea scalei nu ar trebui să mărească puterea relației, așa că ne putem ajusta împărțind covarianțele la abaterile standard de x și y, care este exact definiția coeficientului de corelație.
În ambele cazuri de mai sus, coeficientul de corelație între x și y este 0.98198
.
Comentarii
- " Covarianța nu ' nu vă spune cu adevărat despre forța relației dintre cele două variabile, în timp ce corelația." Această afirmație este complet falsă. Cele două măsuri sunt scalare modulo identică cu cele două abateri standard.
- @DavidHeffernan, da dacă sunt scalate prin abateri standard, atunci covarianța ne spune despre puterea relației. Cu toate acestea, măsura de covarianță prin ea însăși nu ' nu ne spune asta.
- @DavidHeffernan, cred că ceea ce spune Akavall este că dacă nu ' nu știți scara variabilelor atunci covarianța nu vă spune nimic despre forța relației – doar semnul poate fi interpretat.
- În ce situație practică puteți obține o covarianță fără a putea obține, de asemenea, o estimare bună a scării variabilelor?
- Cu toate acestea, nu este întotdeauna necesar să cunoașteți abaterea standard pentru a înțelege scara unui variabilă și astfel puterea unei relații. Efectele nestandardizate sunt adesea informative. De exemplu, dacă efectuarea unui curs de formare determină oamenii să crească în medie venitul cu 10.000 de dolari pe an, ' este probabil un indiciu mai bun al puterii efectului, decât să spui că a existat .34 corelație între efectuarea cursului și venituri.