Hva er kovarians i vanlig språk og hvordan er det knyttet til begrepene avhengighet , korrelasjon og varians-kovariansstruktur med hensyn til design med gjentatte mål?
Kommentarer
- Også av interesse: " Hvordan vil du forklare kovarians til noen som bare forstår gjennomsnittet? " og " Hvordan vil du forklare forskjellen mellom korrelasjon og kovarians? ".
Svar
Kovarians er et mål på hvordan endringer i en variabel er assosiert med endringer i et sekund variabel. Spesifikt måler kovarians i hvilken grad to variabler er lineært assosiert. Imidlertid brukes den også ofte uformelt som et generelt mål på hvor monotonisk relaterte to variabler er. Det er mange nyttige intuitive forklaringer på kovarians her .
Angående hvordan kovarians er relatert til hvert av begrepene du nevnte:
(1) Korrelasjon er en skalert versjon av kovarians som tar på seg verdier i $ [- 1,1] $ med en korrelasjon på $ \ pm 1 $ som indikerer perfekt lineær tilknytning og $ 0 $ som indikerer ingen lineær sammenheng. Denne skaleringen gjør korrelasjonen uforanderlig til endringer i skalaen til de opprinnelige variablene, (som Akavall påpeker og gir et eksempel på, +1). Skaleringskonstanten er produktet av standardavvikene til de to variablene.
(2) Hvis to variabler er uavhengig , deres samvarians er $ 0 $. Men å ha en samvarians på $ 0 $ betyr ikke at variablene er uavhengige. Denne figuren (fra Wikipedia)
$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ $
viser flere eksempler på data som ikke er uavhengige, men deres samvarianser er $ 0 $. Et viktig spesielt tilfelle er at hvis to variabler er i fellesskap normalt distribuert, da er de uavhengige hvis og bare hvis de ikke er korrelert . Et annet spesielt tilfelle er at par bernoulli-variabler ikke er korrelert hvis og bare hvis de er uavhengige (takk @cardinal).
(3) varians / samvariansstruktur (ofte bare kalt samvariansstruktur ) i gjentatte mål design refererer til strukturen som brukes til å modellere det faktum at gjentatte målinger på individer er potensielt korrelert (og derfor er avhengige) ved å modellere oppføringene i kovariansmatrisen til de gjentatte målingene. Et eksempel er utskiftbar korrelasjonsstruktur med konstant varians som spesifiserer at hver gjentatt måling har samme varians, og alle måleparene er like korrelert. Et bedre valg kan være å spesifisere en kovariansstruktur som krever to målinger tatt lenger fra hverandre i tid for å være mindre korrelert (f.eks. en autoregressiv modell ). Merk at begrepet kovariansstruktur oppstår mer generelt i mange typer multivariate analyser der observasjoner er tillatt å korrelere.
Kommentarer
- forklaringen din er fin. Det blir fulgt av verdifullt supplement som forårsaket en interessant serie med kommentarer. Tusen takk til alle :)!
Svar
Makroens svar er utmerket, men jeg vil legg til mer til et poeng av hvordan kovarians er relatert til korrelasjon. Kovarians forteller deg ikke virkelig om styrken i forholdet mellom de to variablene, mens korrelasjonen gjør det. For eksempel:
x = [1, 2, 3] y = [4, 6, 10] cov(x,y) = 2 #I am using population covariance here
La oss nå endre skalaen, og multipliser både x og y med 10
x = [10, 20, 30] y = [40, 60, 100] cov(x, y) = 200
Endring av skalaen skal ikke øke styrken i forholdet, så vi kan justere ved å dele kovarianter med standardavvik på x og y, som er nøyaktig definisjonen av korrelasjonskoeffisient.
I begge tilfeller er korrelasjonskoeffisienten mellom x og y 0.98198
.
Kommentarer
- " Kovarians forteller ikke ' t virkelig om styrken på forholdet mellom de to variablene, mens korrelasjonen gjør det." Denne påstanden er helt falsk. De to målene er identisk modulering ved de to standardavvikene.
- @ DavidHeffernan, ja hvis skalert av standardavvik, så forteller kovariansen oss om styrken i forholdet. Imidlertid forteller kovariansmål ved seg selv ikke ' t.
- @DavidHeffernan, jeg tror det Akavall sier er at hvis du ikke gjør ' vet ikke størrelsen på variablene så forteller ikke kovariansen deg noe om styrken i forholdet – bare tegnet kan tolkes.
- I hvilken praktisk situasjon kan du oppnå en kovarians uten også å kunne få et godt estimat av størrelsen på variablene?
- Det er imidlertid ikke alltid nødvendig å kjenne standardavviket for å forstå skalaen til en variabel og dermed styrken i et forhold. Ikke-standardiserte effekter er ofte informative. F.eks. Hvis det å gjøre et opplæring fører til at folk i gjennomsnitt øker inntektene med $ 10 000 per år, er ' sannsynligvis en bedre indikasjon på effektens styrke, enn å si at det var ar = .34 sammenheng mellom å gjøre kursen og inntekt.