Vad är kovarians på vanligt språk?

Vad är kovarians i vanligt språk och hur är det kopplat till termerna beroende , korrelation och varians-kovariansstruktur med avseende på mönster med upprepade mått?

Kommentarer

Svar

Kovarians är ett mått på hur förändringar i en variabel är associerade med förändringar i en sekund variabel. Specifikt mäter kovarians i vilken grad två variabler är linjärt associerade. Det används emellertid ofta informellt som ett allmänt mått på hur monotont relaterade två variabler är. Det finns många användbara intuitiva förklaringar av kovarians här .

Angående hur kovarians är relaterad till vart och ett av de termer du nämnde:

(1) Korrelation är en skalad version av kovarians som tar upp värden i $ [- 1,1] $ med en korrelation på $ \ pm 1 $ som indikerar perfekt linjär association och $ 0 $ som indikerar inget linjärt förhållande. Denna skalning gör korrelationen invariant till förändringar i skala för de ursprungliga variablerna (som Akavall påpekar och ger ett exempel på, +1). Skalningskonstanten är produkten av standardavvikelserna för de två variablerna.

(2) Om två variabler är oberoende , deras kovarians är $ 0 $. Men att ha en kovarians på $ 0 $ innebär inte att variablerna är oberoende. Denna siffra (från Wikipedia)

$ \ \ \ \ \ \ \ \ \ \ \ \ \ $ $ ange bildbeskrivning här

visar flera exempel på data som inte är oberoende, men deras samvariationer är $ 0 $. Ett viktigt specialfall är att om två variabler är gemensamt normalt fördelade, då är de oberoende om och bara om de är okorrelerade . Ett annat speciellt fall är att par bernoulli-variabler är okorrelerade om och bara om de är oberoende (tack @cardinal).

(3) varians / kovariansstruktur (kallas ofta helt enkelt kovariansstruktur ) i upprepade mått design avser strukturen som används för att modellera det faktum att upprepade mätningar på individer är potentiellt korrelerade (och därför är beroende) genom att modellera posterna i kovariansmatrisen för de upprepade mätningarna. Ett exempel är utbytbar korrelationsstruktur med konstant varians som anger att varje upprepad mätning har samma varians och alla mätningspar är lika korrelerade. Ett bättre val kan vara att specificera en kovariansstruktur som kräver att två mätningar tas längre ifrån varandra för att vara mindre korrelerade (t.ex. en autoregressiv modell ). Observera att termen kovariansstruktur uppstår mer allmänt i många typer av multivariata analyser där observationer tillåts korreleras.

Kommentarer

  • din förklaring är trevlig. Det följs av värdefullt tillägg som orsakade en intressant serie kommentarer. Tack till alla :)!

Svar

Makros svar är utmärkt, men jag vill lägg till mer till en punkt om hur kovarians är relaterad till korrelation. Kovarians berättar inte riktigt om styrkan i förhållandet mellan de två variablerna, medan korrelation gör det. Till exempel:

x = [1, 2, 3] y = [4, 6, 10] cov(x,y) = 2 #I am using population covariance here 

Låt oss nu ändra skalan och multiplicera både x och y med 10

x = [10, 20, 30] y = [40, 60, 100] cov(x, y) = 200 

Att ändra skalan bör inte öka förhållandet mellan relationerna, så vi kan justera genom att dividera kovarianterna med standardavvikelser på x och y, vilket är exakt definitionen av korrelationskoefficient.

I båda fallen är korrelationskoefficienten mellan x och y 0.98198.

Kommentarer

  • " Kovarians berättar inte ' om styrkan i förhållandet mellan de två variablerna, medan korrelation gör det." Detta uttalande är helt falskt. De två måtten är identisk moduleringsskalning med de två standardavvikelserna.
  • @ DavidHeffernan, ja om den skalas av standardavvikelser så berättar kovariansen om styrkan i förhållandet. Kovariansmåttet självt säger dock inte ' det.
  • @DavidHeffernan, jag tror vad Akavall säger är att om du inte ' vet inte storleken på variablerna då berättar inte kovariansen dig något om relationens styrka – bara tecknet kan tolkas.
  • I vilken praktisk situation kan du få en kovarians utan att också kunna få en bra uppskattning av variabelns skala?
  • Det är emellertid inte alltid nödvändigt att känna till standardavvikelsen för att förstå skalan på en variabel och därmed styrkan i ett förhållande. Ostandardiserade effekter är ofta informativa. Om exempelvis en utbildning gör att folk i genomsnitt ökar sina inkomster med 10 000 dollar per år, är ' förmodligen en bättre indikation på effektens styrka än att säga att det fanns ar = .34 samband mellan att göra kursen och inkomst.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *