¿Qué significa la varianza agrupada “ en realidad ”?

Soy un novato en estadísticas, por lo que podrían ayudarme aquí.

Mi pregunta es la siguiente: ¿Qué varianza agrupada en realidad ¿significa?

Cuando busco una fórmula para la varianza agrupada en Internet, encuentro mucha literatura que utiliza la siguiente fórmula (por ejemplo, aquí: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

\ begin {ecuación} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {ecuación}

Pero, ¿qué hace en realidad calcular? Porque cuando utilizo esta fórmula para calcular mi varianza combinada, me da una respuesta incorrecta.

Por ejemplo, considere estas «muestras principales»:

\ begin {equaliser} \ label { eq: parentsample} 2,2,2,2,2,8,8,8,8,8 \ end {ecuación}

La varianza de esta muestra principal es $ S ^ 2_p = 10 $, y su media es $ \ bar {x} _p = 5 $.

Ahora, suponga que divido esta muestra principal en dos submuestras:

  1. La primera submuestra es 2,2,2,2,2 con una media de $ \ barra {x} _1 = 2 $ y varianza $ S ^ 2_1 = 0 $.
  2. La segunda submuestra es 8,8,8,8,8 con media $ \ bar {x} _2 = 8 $ y varianza $ S ^ 2_2 = 0 $.

Ahora, claramente, usar la fórmula anterior para calcular la varianza agrupada / principal de estas dos submuestras producirá cero, porque $ S_1 = 0 $ y $ S_2 = 0 $. Entonces, ¿qué calcula realmente esta fórmula?

Por otro lado, después de una larga derivación, encontré que la fórmula que produce la variación correcta agrupada / principal es:

\ begin {ecuación} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {ecuación}

En la fórmula anterior, $ d_1 = \ bar {x_1} – \ bar {x} _p $ y $ d_2 = \ bar {x_2 } – \ bar {x} _p $.

Encontré una fórmula similar a la mía, por ejemplo aquí: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html y también en Wikipedia. Aunque tengo que admitir que no se parecen exactamente a los míos.

De nuevo, ¿qué significa realmente la varianza combinada? ¿No debería significar la varianza de la muestra principal de las dos submuestras ? ¿O estoy completamente equivocado aquí?

Gracias de antemano.


EDICIÓN 1: Alguien dice que mis dos submuestras anteriores son patológicas ya que tienen una varianza cero. Bueno, podría darte un ejemplo diferente. Considere esta muestra principal:

\ begin {equaliser} \ label {eq: parentsample2} 1, 2, 3, 4, 5, 46, 47, 48, 49, 50 \ end {ecuación}

La varianza de esta muestra principal es $ S ^ 2_p = 564.7 $, y su media es $ \ bar {x} _p = 25.5 $.

Ahora, suponga que divido esta muestra principal en dos submuestras:

  1. La primera submuestra es 1,2,3,4,5 con una media de $ \ bar {x} _1 = 3 $ y varianza $ S ^ 2_1 = 2.5 $.
  2. La segunda submuestra es 46,47,48,49,50 con media $ \ bar {x} _2 = 48 $ y varianza $ S ^ 2_2 = 2.5 $.

Ahora, si usa la «fórmula de la literatura» para calcular la varianza combinada, obtendrá 2.5, lo cual es completamente incorrecto, porque la varianza principal / agrupada debe ser 564,7. En cambio, si usa «mi fórmula», obtendrá la respuesta correcta.

Por favor, comprenda que utilizo ejemplos extremos aquí para mostrarle a la gente que la fórmula es incorrecta. Si utilizo «datos normales» que «no tienen muchas variaciones (casos extremos), entonces los resultados de esas dos fórmulas serán muy similares y la gente podría descartar la diferencia debido a un error de redondeo, no porque la fórmula en sí sea incorrecto.

Comentarios

Responder

En pocas palabras, la varianza combinada es una estimación (sin sesgo) de la varianza dentro de cada muestra, bajo el supuesto / restricción de que esas varianzas son iguales.

Esto se explica, motiva y analiza con cierto detalle en la entrada de Wikipedia para la varianza agrupada .

Lo hace no estimar la varianza de una nueva» metamuestra «formada mediante la concatenación de las dos muestras individuales, como suponía. Como ya ha descubierto, estimar eso requiere una fórmula completamente diferente.

Comentarios

  • El supuesto de » igualdad » (es decir, la misma población se dio cuenta de esas muestras) no es necesario en general para definir lo que es – » agrupado «. Agrupado simplemente significa promediado, ómnibus (ver mi comentario a Tim).
  • @ttnphns Creo que el supuesto de igualdad es necesario para dar a la varianza agrupada un significado conceptual (que el OP pidió) que va más allá de lo verbal describiendo la operación matemática que realiza sobre las varianzas muestrales. Si las varianzas de la población no se suponen iguales, entonces ‘ no está claro cuál podríamos considerar como una estimación de la varianza combinada. Por supuesto, podríamos pensar en ello como una amalgama de las dos variaciones y dejarlo así, pero eso ‘ es poco esclarecedor en ausencia de cualquier motivación para querer combinar las variaciones en primer lugar.
  • Jake, yo ‘ no estoy en desacuerdo con eso, dada la pregunta específica del OP, pero quería hablar sobre definición de la palabra » agrupada «, que ‘ es la razón por la que dije: » en general «.
  • @JakeWestfall Tu respuesta es la mejor respuesta hasta ahora. Gracias. Aunque todavía no tengo claro una cosa. Según Wikipedia, la varianza combinada es un método para estimar la varianza de varias poblaciones diferentes cuando la media de cada población puede ser diferente , pero se puede suponer que la varianza de cada población es el mismo .
  • @JakeWestfall: Entonces, si estamos calculando la varianza combinada de dos poblaciones diferentes con diferentes medias, ¿qué calcula realmente? Porque la primera varianza mide la variación con respecto a la primera media, y la segunda varianza es con respecto a la segunda media. No ‘ no sé qué información adicional se puede obtener al calcularlo.

Respuesta

La varianza agrupada se usa para combinar juntas las varianzas de diferentes muestras tomando su promedio ponderado, para obtener la varianza «general». El problema con tu ejemplo es que se trata de un caso patológico, ya que cada una de las submuestras tiene varianza igual a cero. Este caso patológico tiene muy poco en común con los datos que solemos encontrar, ya que siempre hay alguna variabilidad y si no hay variabilidad, no nos importan tales variables ya que no llevan información. Hay que notar que esto es un método muy simple y hay formas más complicadas de estimar la varianza en estructuras de datos jerárquicas que no son propensas a tales problemas.

En cuanto a su ejemplo en la edición, muestra que es importante establecer claramente sus suposiciones antes de comenzar el análisis. Supongamos que tiene $ n $ puntos de datos en $ k $ grupos, lo denotaríamos como $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, donde el índice $ i $ -ésimo en $ x_ {i, j} $ representa los casos y el índice $ j $ -ésimo representa los índices de grupo. Hay varios escenarios posibles, puede asumir que todos los puntos provienen de la misma distribución (para simplificar, supongamos una distribución normal),

$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$

puede asumir que cada una de las submuestras tiene su propia media

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

o su propia varianza

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

o, cada uno de ellos tiene sus propios parámetros distintos

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

Dependiendo de sus suposiciones, un método particular puede, o puede no ser adecuado para analizar los datos.

En el primer caso, no estaría interesado en estimar las variaciones dentro del grupo, ya que asumiría que todas son iguales. No obstante, si agrega la varianza global de las varianzas de grupo, obtendrá el mismo resultado que al usar la varianza combinada, ya que la definición de varianza es

$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$

y en el estimador agrupado, primero lo multiplica por $ n-1 $, luego suma y finalmente divide por $ n_1 + n_2 – 1 $.

En el segundo caso, las medias son diferentes, pero tiene una variación común. Este ejemplo es el más cercano a su ejemplo en la edición. En este escenario, la varianza agrupada correctamente estimaría la varianza global, mientras que si estimara la varianza en todo el conjunto de datos, obtendría resultados incorrectos, ya que no estaba teniendo en cuenta el hecho de que los grupos tienen medias diferentes. .

En el tercer caso, no tiene sentido estimar la varianza «global» ya que asume que cada uno de los grupos tiene su propia varianza.Es posible que aún esté interesado en obtener la estimación para toda la población, pero en tal caso (a) calcular las varianzas individuales por grupo y (b) calcular la varianza global de todo el conjunto de datos, puede darte resultados engañosos . Si está tratando con este tipo de datos, debería pensar en usar un modelo más complicado que dé cuenta de la naturaleza jerárquica de los datos.

El cuarto caso es el más extremo y bastante similar al anterior. En este escenario, si quisiera estimar la media global y la varianza, necesitaría un modelo diferente y un conjunto diferente de supuestos. En tal caso, asumiría que sus datos son de estructura jerárquica, y además de las medias y variaciones dentro del grupo, hay una variación común de nivel superior, por ejemplo, asumiendo el siguiente modelo

$$ \ begin {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

donde cada muestra tiene sus propias medias y varianzas $ \ mu_j, \ sigma ^ 2_j $ que se extraen de distribuciones comunes. En tal caso, utilizaría un modelo jerárquico que tenga en cuenta tanto la variabilidad del nivel inferior como del nivel superior. Para leer más sobre este tipo de modelos, puede consultar el libro Análisis de datos bayesianos de Gelman et al. y su ejemplo de ocho escuelas . Sin embargo, este es un modelo mucho más complicado que el simple estimador de varianza combinado.

Comentarios

  • He actualizado mi pregunta con un ejemplo diferente. En este caso, la respuesta de la » literatura ‘ s fórmula » sigue siendo incorrecta. Entiendo que normalmente estamos tratando con » datos normales » donde no hay un caso extremo como mi ejemplo anterior. Sin embargo, como matemáticos, no debería ‘ t preocuparse por qué fórmula es realmente correcta, en lugar de qué fórmula se aplica en » problema cotidiano / común «? Si alguna fórmula es fundamentalmente incorrecta, debe descartarse, especialmente si hay otra fórmula que se cumple en todos los casos, patológica o no.
  • Por cierto, dijiste que hay formas más complicadas de estimar la varianza. ¿Podrías mostrarme estos caminos? Gracias
  • Tim, la varianza agrupada no es la varianza total de la » muestra combinada «. En estadísticas, » agrupado » significa promediado ponderado (cuando hablamos de cantidades promediadas como varianzas, pesos siendo los n ‘ s) o simplemente sumados (cuando hablamos de sumas como dispersiones, sumas de cuadrados) . Por favor, reconsidere su terminología (elección de palabras) en la respuesta.
  • Aunque fuera del tema actual, aquí hay una pregunta interesante sobre » common » concepto de varianza. stats.stackexchange.com/q/208175/3277
  • Hanciong. Insisto en que » agrupe » en general e incluso específicamente » varianza agrupada » concepto no necesita, en general, ningún supuesto como: los grupos provienen de poblaciones con variaciones iguales. La agrupación es simplemente una combinación (promediado ponderado o suma). Es en ANOVA y circunstancias similares que agregamos esa suposición estadística.

Respuesta

El problema es si simplemente concatenas las muestras y calculas su varianza, estás asumiendo que son de la misma distribución, por lo tanto, tienen la misma media. Pero en general estamos interesados en varias muestras con diferentes medias. ¿Tiene esto sentido?

Respuesta

El caso de uso de la varianza agrupada es cuando tiene dos muestras de distribuciones que:

  • puede tener diferentes medios, pero
  • que espera que tenga una varianza verdadera igual.

Un ejemplo de esto es una situación en la que mide la longitud de la nariz de Alice $ n $ veces para una muestra y mide la longitud de la nariz de Bob $ m $ veces para la segunda. Es probable que estos produzcan un montón de medidas diferentes en la escala de milímetros, debido a un error de medición. Pero espera que la varianza en el error de medición sea la misma sin importar qué punta mida.

En este caso, tomar la varianza combinada le daría una mejor estimación de la varianza en el error de medición que tomar la varianza de una sola muestra.

Comentarios

  • Gracias por su respuesta, pero todavía ‘ no entiendo una cosa . Los primeros datos te dan la varianza con respecto a la longitud de la nariz de Alice ‘ y los segundos datos te dan la varianza con respecto a Bob ‘ s longitud de la nariz. Si está calculando una varianza combinada a partir de esos datos, ¿qué significa realmente? Debido a que la primera varianza mide la variación con respecto a Alice ‘ s, y la segunda con respecto a Bob ‘ s, entonces, ¿qué ¿Podemos obtener información al calcular su varianza combinada? Son números completamente diferentes.

Respuesta

A través de la varianza agrupada, no estamos tratando de estimar la varianza de una muestra más grande, utilizando muestras más pequeñas. Por lo tanto, los dos ejemplos que proporcionó no se refieren exactamente a la pregunta.

Se requiere la varianza combinada para obtener una mejor estimación de la varianza de la población, a partir de dos muestras que se tomaron al azar de esa población y se obtienen con estimaciones de varianza diferentes.

Por ejemplo, está tratando de medir la varianza en los hábitos de fumar de los hombres en Londres. Muestra dos veces, 300 hombres de Londres. Al final, obtiene dos variaciones (probablemente un poco diferentes Ahora, dado que hizo un muestreo aleatorio justo (¡lo mejor para su capacidad! Ya que el muestreo aleatorio verdadero es casi imposible), tiene todo el derecho a decir que ambas varianzas son estimaciones puntuales verdaderas de la varianza de la población (los hombres de Londres en este caso).

Pero, ¿cómo es posible? ¡¡Es decir, dos estimaciones puntuales diferentes !! Por lo tanto, seguimos adelante y encontramos una estimación puntual común que es la varianza agrupada. No es más que un promedio ponderado de dos estimaciones puntuales, donde los pesos son el grado de libertad asociado con cada muestra.

Espero que esto aclare.

Responder

Aunque llego muy tarde a la conversación, tal vez pueda agregar algo útil:
Me parece que el OP quiere saber por qué (para qué) necesitaríamos una estimación de variabilidad agrupada $ \ hat \ sigma_ {agrupada} $ como un promedio ponderado de dos muestras (sea varianza o desviación estándar).

Hasta donde yo sé, la principal práctica necesidad de esto El tipo de medida de dispersión surge de querer comparar medias de (sub) grupos: entonces, si quiero comparar la longitud promedio de la nariz para 1) personas que no se sometieron a una terapia génica, 2) personas que se sometieron a la terapia génica A y 3) personas que se sometieron a terapia génica B.
Para poder comparar mejor la cantidad de diferencias medias en longitud (mm), divido la diferencia media, digamos, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ por la estimación de variabilidad (aquí, devi estándar ación). Dependiendo del tamaño de la raíz cuadrada de la varianza combinada (desviación estándar combinada), podemos juzgar mejor el tamaño de la diferencia de 2 mm entre esos grupos (por ejemplo, $ d = 2mm / 0.5mm = 4 $ frente a $ d = 2mm / 4mm = 0.5 $ – > ¿La terapia génica A lo hace? algo a la longitud de la nariz? Y si es así, ¿cuánto? Cuando $ d = 4 $ o $ 2 \ pm 0.5mm $ parece haber una » estable » o » consistente » o » big » (en comparación con la variabilidad) diferencia entre las longitudes medias de la nariz, cuando $ d = 0.5 $ o $ 2 \ pm 4mm $ no parece tanto, relativamente hablando. En caso todos los valores dentro de ambos grupos son iguales y por lo tanto no hay variabilidad ingenio En los grupos, $ d $ no se definiría, pero la interpretación sería $ 2 \ pm 0mm = 2mm $ exactamente).
Esta es la idea de tamaño del efecto (primero introducido teóricamente por Neyman y Pearson hasta donde yo sé, pero de un tipo u otro usado mucho antes, ver Stigler, 1986 , por ejemplo).
Entonces, lo que estoy haciendo es comparar la diferencia media entre grupos con las diferencias medias dentro de esos mismos grupos, es decir, promedio ponderado de varianzas (desviaciones estándar). Esto tiene más sentido que comparar la diferencia media entre (sub-) grupos con la diferencia media dentro del » grupo » completo, porque , como usted (Hanciong) ha mostrado, la varianza (y la desviación estándar) de todo el grupo también contiene las diferencias de las medias del grupo.

La teórica necesidad de la medida surge de poder utilizar la $ t $ -distribución para encontrar la probabilidad de la diferencia media observada o una más extrema, dado algún valor esperado para la diferencia media (valor p para, por ejemplo, prueba de significación de hipótesis nula , NHST o prueba de hipótesis de Neyman-Pearson o prueba de hipótesis de Fisher, intervalos de confianza, etc.): $ p (e \ ge e_ {observado} | \ mu_e = 0) $ .
Hasta donde yo sé, el valor p obtenido por la distribución $ t $ (y especialmente la $ F $ -distribución en casos con más de 2 medias para comparar) dará estimaciones correctas para la probabilidad solo cuando ambas (o todas) muestras se extraigan de poblaciones con varianzas iguales (homogeneidad de varianza, como se señaló en las otras respuestas ya; esto debería describirse con (más) detalle en m la mayoría de los libros de texto de estadística). Creo que todas las distribuciones basadas en la distribución normal ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) asume una varianza de más de 0 y menos de $ \ infty $ , por lo que sería imposible encontrar el valor p para un caso con una variabilidad interna de 0 (en este caso, obviamente, no supondría haber extraído su muestra de una distribución normal).
(Esto también parece intuitivamente razonable: si quiero para comparar dos o más medias, la precisión de esas medias debería ser la misma o al menos comparable:
si ejecuto mi terapia genética A en personas cuyas longitudes de nariz son bastante similares, digamos $ \ bar x \ pm 0.5mm $ pero tengo un grupo de personas con alta variabilidad en la longitud de la nariz en mi grupo de control, digamos $ \ bar x \ pm 4mm $ no parece justo comparar directamente esas medias, porque esas medias no tienen el mismo » significado-medio «; de hecho, la varianza / desviación estándar mucho más alta en mi grupo de control podría estar indicando más subgrupos, tal vez diferencias en la longitud de la nariz debido a diferencias en algún gen).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *