Was ist Kovarianz im Klartext und wie hängt sie mit den Begriffen Abhängigkeit , Korrelation und zusammen? Varianz-Kovarianz-Struktur in Bezug auf Designs mit wiederholten Messungen?
Kommentare
- Ebenfalls von Interesse: " Wie würden Sie jemandem die Kovarianz erklären, der nur den Mittelwert versteht? " und " Wie würden Sie den Unterschied zwischen Korrelation und Kovarianz erklären? ".
Antwort
Die Kovarianz ist ein Maß dafür, wie Änderungen in einer Variablen mit Änderungen in einer zweiten verbunden sind Variable. Insbesondere misst die Kovarianz den Grad, in dem zwei Variablen linear assoziiert sind. Es wird jedoch häufig auch informell als allgemeines Maß dafür verwendet, wie monoton zwei Variablen zusammenhängen. Hier gibt es viele nützliche intuitive Erklärungen zur Kovarianz .
In Bezug auf die Beziehung zwischen Kovarianz und den von Ihnen genannten Begriffen:
(1) Korrelation ist eine skalierte Version von Kovarianz, die Werte in $ [- 1,1] $ annimmt, wobei eine Korrelation von $ \ pm 1 $ eine perfekte lineare Assoziation anzeigt und $ 0 $ keine lineare Beziehung anzeigt. Diese Skalierung macht die Korrelation unveränderlich gegenüber Änderungen der Skalierung der ursprünglichen Variablen (worauf Akavall hinweist und ein Beispiel für +1 gibt). Die Skalierungskonstante ist das Produkt der Standardabweichungen der beiden Variablen.
(2) Wenn zwei Variablen sind unabhängig beträgt ihre Kovarianz $ 0 $. Eine Kovarianz von $ 0 $ bedeutet jedoch nicht, dass die Variablen unabhängig sind. Diese Abbildung (aus Wikipedia)
$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ $
zeigt mehrere Beispieldiagramme von Daten, die nicht unabhängig sind, deren Kovarianzen jedoch $ 0 $ betragen. Ein wichtiger Sonderfall ist, dass , wenn zwei Variablen gemeinsam normalverteilt sind, dann sind sie genau dann unabhängig, wenn sie nicht korreliert sind . Ein weiterer Sonderfall ist, dass Paare von Bernoulli-Variablen genau dann nicht korreliert sind, wenn sie unabhängig sind (danke @cardinal).
(3) Die Varianz- / Kovarianzstruktur (oft einfach als Kovarianzstruktur ) in Designs mit wiederholten Messungen bezieht sich auf die Struktur, die verwendet wird, um die Tatsache zu modellieren, dass wiederholte Messungen an Personen möglicherweise korrelieren (und daher abhängig sind) – dies erfolgt durch Modellieren der Einträge in der Kovarianzmatrix der wiederholten Messungen. Ein Beispiel ist die austauschbare Korrelationsstruktur mit konstanter Varianz , die angibt, dass jede wiederholte Messung dieselbe Varianz aufweist und alle Messpaare gleichermaßen korreliert sind. Eine bessere Wahl kann darin bestehen, eine Kovarianzstruktur anzugeben, bei der zwei zeitlich weiter auseinander liegende Messungen weniger korreliert sein müssen (z. B. ein autoregressives Modell ). Beachten Sie, dass der Begriff Kovarianzstruktur allgemeiner in vielen Arten von multivariaten Analysen auftritt, bei denen Beobachtungen korreliert werden dürfen.
Kommentare
- Ihre Erklärung ist nett. Es folgt eine wertvolle Ergänzung, die eine interessante Reihe von Kommentaren hervorrief. Vielen Dank an alle :)!
Antwort
Die Antwort von Macro ist ausgezeichnet, aber ich möchte Fügen Sie mehr zu einem Punkt hinzu, in dem die Kovarianz mit der Korrelation zusammenhängt. Die Kovarianz sagt nichts über die Stärke der Beziehung zwischen den beiden Variablen aus, während die Korrelation dies tut. Beispiel:
x = [1, 2, 3] y = [4, 6, 10] cov(x,y) = 2 #I am using population covariance here
Ändern wir nun die Skalierung und multiplizieren Sie x und y mit 10
x = [10, 20, 30] y = [40, 60, 100] cov(x, y) = 200
Das Ändern der Skala sollte die Stärke der Beziehung nicht erhöhen, daher können wir sie anpassen, indem wir die Kovarianzen durch Standardabweichungen von x und y dividieren, was genau die Definition des Korrelationskoeffizienten ist.
In beiden obigen Fällen ist der Korrelationskoeffizient zwischen x und y 0.98198
.
Kommentare
- " Kovarianz ' sagt Ihnen nicht wirklich etwas über die Stärke der Beziehung zwischen den beiden Variablen aus, während die Korrelation dies tut." Diese Aussage ist völlig falsch. Die beiden Maße sind identische Moduloskalierungen durch die beiden Standardabweichungen.
- @DavidHeffernan, ja, wenn sie durch Standardabweichungen skaliert werden, gibt die Kovarianz Auskunft über die Stärke der Beziehung. Das Kovarianzmaß selbst sagt uns jedoch nicht, dass ' uns das sagt.
- @DavidHeffernan, ich denke, Akavall sagt, dass wenn Sie nicht ' kennt die Skalierung der Variablen nicht , dann sagt die Kovarianz nichts über die Stärke der Beziehung aus – nur das Vorzeichen kann interpretiert werden.
- In welcher praktischen Situation können Sie eine Kovarianz erhalten, ohne auch eine gute Schätzung der Skala der Variablen erhalten zu können?
- Es ist jedoch nicht immer erforderlich, die Standardabweichung zu kennen, um die Skala von a zu verstehen variabel und damit die Stärke einer Beziehung. Nicht standardisierte Effekte sind oft informativ. Wenn beispielsweise ein Schulungskurs dazu führt, dass die Menschen ihr Einkommen im Durchschnitt um 10.000 USD pro Jahr erhöhen, ist ' wahrscheinlich ein besserer Hinweis auf die Stärke der Wirkung, als zu sagen, dass es ar = gibt .34 Korrelation zwischen Kurs und Einkommen.