¿Qué es la covarianza en lenguaje sencillo?

¿Qué es la covarianza en lenguaje sencillo y cómo se vincula con los términos dependencia , correlación y estructura de varianza-covarianza con respecto a diseños de medidas repetidas?

Comentarios

Respuesta

La covarianza es una medida de cómo los cambios en una variable se asocian con los cambios en una segunda variable. Específicamente, la covarianza mide el grado en que dos variables están asociadas linealmente. Sin embargo, también se usa a menudo de manera informal como una medida general de cuán monótonamente relacionadas están dos variables. Hay muchas explicaciones intuitivas útiles de la covarianza aquí .

Con respecto a cómo se relaciona la covarianza con cada uno de los términos que mencionaste:

(1) Correlación es una versión escalada de covarianza que toma valores en $ [- 1,1] $ con una correlación de $ \ pm 1 $ que indica una asociación lineal perfecta y $ 0 $ que indica que no hay relación lineal. Esta escala hace que la correlación sea invariante a los cambios en la escala de las variables originales (que Akavall señala y da un ejemplo de +1). La constante de escala es el producto de las desviaciones estándar de las dos variables.

(2) Si dos variables son independiente , su covarianza es $ 0 $. Pero tener una covarianza de $ 0 $ no implica que las variables sean independientes. Esta figura (de Wikipedia)

$ \ \ \ \ \ \ \ \ \ \ \ \ \ \ $ ingrese la descripción de la imagen aquí

muestra varios ejemplos de gráficos de datos que no son independientes, pero sus covarianzas son $ 0 $. Un caso especial importante es que si dos variables están conjuntamente distribuidas normalmente, entonces son independientes si y solo si no están correlacionados . Otro caso especial es que los pares de variables de Bernoulli no están correlacionados si y solo si son independientes (gracias @cardinal).

(3) La estructura de varianza / covarianza (a menudo llamada simplemente estructura de covarianza ) en diseños de medidas repetidas se refiere a la estructura utilizada para modelar el hecho de que las medidas repetidas en individuos están potencialmente correlacionadas (y por lo tanto son dependientes) – esto se hace modelando las entradas en la matriz de covarianza de las mediciones repetidas. Un ejemplo es la estructura de correlación intercambiable con varianza constante que especifica que cada medición repetida tiene la misma varianza y que todos los pares de mediciones están igualmente correlacionados. Una mejor opción puede ser especificar una estructura de covarianza que requiera que dos medidas tomadas más separadas en el tiempo estén menos correlacionadas (por ejemplo, un modelo autorregresivo ). Tenga en cuenta que el término estructura de covarianza surge de manera más general en muchos tipos de análisis multivariados en los que se permite correlacionar las observaciones.

Comentarios

  • tu explicación es agradable. Le sigue un valioso suplemento que provocó una interesante serie de comentarios. ¡Muchas gracias a todos :)!

Respuesta

La respuesta de Macro es excelente, pero quiero agregue más al punto de cómo la covarianza está relacionada con la correlación. La covarianza realmente no le dice acerca de la fuerza de la relación entre las dos variables, mientras que la correlación sí. Por ejemplo:

x = [1, 2, 3] y = [4, 6, 10] cov(x,y) = 2 #I am using population covariance here 

Ahora cambiemos la escala y multipliquemos xey por 10

x = [10, 20, 30] y = [40, 60, 100] cov(x, y) = 200 

Cambiar la escala no debería aumentar la fuerza de la relación, por lo que podemos ajustar dividiendo las covarianzas entre las desviaciones estándar de xey, que es exactamente la definición de coeficiente de correlación.

En los dos casos anteriores, el coeficiente de correlación entre xey es 0.98198.

Comentarios

  • " La covarianza no ' realmente te dice acerca de la fuerza de la relación entre las dos variables, mientras que la correlación sí." Esa afirmación es completamente falsa. Las dos medidas son escalas de módulo idénticas por las dos desviaciones estándar.
  • @DavidHeffernan, sí, si se escala por desviaciones estándar, la covarianza nos informa sobre la fuerza de la relación. Sin embargo, la medida de covarianza por sí misma no ' no nos dice eso.
  • @DavidHeffernan, creo que lo que Akavall está diciendo es que si no ' No conozco la escala de las variables , entonces la covarianza no le dice nada sobre la fuerza de la relación; solo se puede interpretar el signo.
  • ¿En qué situación práctica se puede obtener una covarianza sin poder obtener también una buena estimación de la escala de las variables?
  • Sin embargo, no siempre es necesario conocer la desviación estándar para comprender la escala de una variable y, por tanto, la fuerza de una relación. Los efectos no estandarizados suelen ser informativos. Por ejemplo, si hacer un curso de capacitación hace que las personas aumenten en promedio sus ingresos en $ 10,000 por año, eso ' probablemente sea una mejor indicación de la fuerza del efecto, que decir que hubo ar = .34 correlación entre hacer el curso e ingresos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *