¿Cómo ' sumar ' una desviación estándar?

Tengo un promedio mensual para un valor y una desviación estándar correspondiente a ese promedio. Ahora estoy calculando el promedio anual como la suma de los promedios mensuales, ¿cómo puedo representar la desviación estándar del promedio total?

Por ejemplo, considerando la producción de un parque eólico:

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 

Podemos decir que en el año medio el parque eólico produce 10.358 MWh, pero ¿cuál es la desviación estándar correspondiente a esta cifra?

Comentarios

  • Una discusión después de una respuesta ahora eliminada notó una posible ambigüedad en esta pregunta: ¿busca la DE de los promedios mensuales o desea recuperar la DE de todos los valores originales a partir de los cuales se construyeron esos promedios? Esa respuesta también señaló correctamente que si desea lo último, necesitará la cantidad de valores involucrados en cada uno de los promedios mensuales.
  • Un comentario a otra respuesta eliminada señaló que es extraño calcular un promedio como una suma : seguramente quiere decir que está promediando los promedios mensuales. Pero si lo que desea es estimar el promedio de todos los datos originales, entonces ese procedimiento no suele ser bueno: se necesita un promedio ponderado . Y, por supuesto, ‘ no es posible dar una buena respuesta a su pregunta sobre la » SD para la media sumada » hasta que quede claro cuál es la » media sumada » y lo que pretende representar. Por favor aclare eso para nosotros.
  • @whuber He agregado un ejemplo para aclarar. Matemáticamente creo que la suma de los promedios es igual al promedio mensual multiplicado por 12.
  • Sí, klonq, esa es una solicitud muy razonable. Sin embargo, estas respuestas fueron eliminadas por su propietario, no por la comunidad. Para preservar su valor, he intentado aquí transmitir (mi opinión) las ideas clave que surgen en esas respuestas y sus comentarios. Por cierto, sus ediciones recientes son bastante útiles: a la gente le gusta ver datos de ejemplo.
  • Sin duda, promediar la varianza y, por lo tanto, calcular la desviación estándar promedio no puede ‘ ser el respuesta completa! Todo lo que esto representa es la variación promedio en la medición de la producción de energía DENTRO de un mes. Este es un buen comienzo para obtener un indicador preciso del error de medición, pero no ‘ t esta desviación estándar de 232 debe combinarse de alguna manera con la variación INTERMENSUAL de la potencia de salida. es decir, creo que la desviación estándar resultante final para la Gran Media debería ser un poco más alta que 232 si se tiene en cuenta el error combinado en la medición de ambos dentro de cada mes, así como la APUESTA

Respuesta

Respuesta corta: Promedia las variaciones ; luego puedes sacar la raíz cuadrada para obtener el promedio de desviación estándar .


Ejemplo

Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964 

Y luego la desviación estándar promedio es sqrt(53,964) = 232


De Suma de variables aleatorias distribuidas normalmente :

Si $ X $ y $ Y $ son variables aleatorias independientes que se distribuyen normalmente (y, por lo tanto, también conjuntamente), entonces su suma también se distribuye normalmente

… la suma de dos normalmente independientes las variables aleatorias distribuidas es normal, siendo su media la suma de las dos medias y su varianza la suma de las dos varianzas

Y de Wolfram Alpha «s Distribución de suma normal :

Sorprendentemente, la distribución de una suma de dos Variables independientes distribuidas normalmente $ X $ y $ Y $ con medias y v Arianzas $ (\ mu_X, \ sigma_X ^ 2) $ y $ (\ mu_Y, \ sigma_Y ^ 2) $, respectivamente es otra distribución normal

$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

que tiene media

$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

y varianza

$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

Para sus datos:

  • suma: 10,358 MWh
  • varianza: 647,564
  • desviación estándar: 804.71 ( sqrt(647564) )

ingrese la descripción de la imagen aquí

Entonces, para responder a su pregunta:

  • Cómo «sumar» una desviación estándar ?
  • Los suma cuadráticamente:

    s = sqrt(s1^2 + s2^2 + ... + s12^2) 

Conceptualmente, suma las varianzas , luego saca la raíz cuadrada para obtener la desviación estándar.


Debido a que tenía curiosidad, quería saber el poder mean mensual promedio, y su desviación estándar . A través de la inducción, necesitamos 12 distribuciones normales que:

  • suman una media de 10,358
  • suman una varianza de 647,564

Eso sería 12 distribuciones mensuales promedio de:

  • media de 10,358/12 = 863.16
  • varianza de 647,564/12 = 53,963.6
  • desviación estándar de sqrt(53963.6) = 232.3

ingrese la descripción de la imagen aquí

Podemos verificar nuestras distribuciones promedio mensuales agregándolas 12 veces, para ver que igual a la distribución anual:

  • Media: 863.16*12 = 10358 = 10,358 ( correcta )
  • Varianza: 53963.6*12 = 647564 = 647,564 ( correcto )

Nota : dejaré que alguien con conocimientos de las matemáticas esotéricas del látex convierta las imágenes de mi fórmula, y formula code en fórmulas con formato stackexchange.

Editar : moví el corto a el punto, contesta arriba. Porque necesitaba hacer esto de nuevo hoy, pero quería volver a verificar que promedie las variaciones .

Comentarios

  • Todo esto parece asumir que los meses no están correlacionados. ¿Ha hecho esa suposición explícita en alguna parte? Además, ¿por qué necesitamos traer la distribución normal? Si ‘ solo estamos hablando de varianza, entonces parece innecesario. Por ejemplo, vea mi respuesta aquí li. >
  • @Marco Porque pienso mejor en imágenes y hace que todo sea más fácil de entender.
  • @Marco Además, creo que esta pregunta comenzó en el sitio stats.stackexchange (ahora desaparecido). Un muro de fórmulas es menos accesible que los tratamientos más simples, gráficos y menos rigurosos.
  • Dudo que esto sea correcto. Imagínese dos conjuntos de datos con cada uno una única medida cada uno. Su varianza de cada conjunto es 0, pero el conjunto de ambas medidas tiene una varianza mayor que 0 si los puntos de datos difieren.
  • @Njol, creo que ‘ s por qué asumimos que todas las variables tienen distribución normal. Y lo podemos hacer aquí, porque hablamos de medición física. En su ejemplo, ambas variables no se distribuyen normalmente.
  • Respuesta

    Esta es una pregunta antigua pero la respuesta es aceptada no es realmente correcto o completo. El usuario desea calcular la desviación estándar sobre datos de 12 meses donde la media y la desviación estándar ya se calculan para cada mes. Suponiendo que el número de muestras en cada mes es el mismo, entonces es posible calcular la media muestral y la varianza durante el año a partir de los datos de cada mes. Para simplificar, suponga que tenemos dos conjuntos de datos:

    $ X = \ {x_1, …. x_N \} $

    $ Y = \ {y_1, …., y_N \} $

    con valores conocidos de media muestral y varianza muestral, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .

    Ahora queremos calcular las mismas estimaciones para

    $ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .

    Considere que $ \ mu_x $ , $ \ sigma ^ 2_x $ se calculan como:

    $ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

    $ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $

    Para estimar la media y la varianza sobre el conjunto total, debemos calcular:

    $ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ que se da en la respuesta aceptada. Para la variación, sin embargo, la historia es diferente:

    $ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $

    $ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $

    $ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $

    Entonces, si tiene la varianza en cada subconjunto y desea la varianza en todo el conjunto, puede promediar las varianzas de cada subconjunto si todos tienen la misma media. De lo contrario, debe agregar la varianza de la media de cada subconjunto.

    Digamos que durante la primera mitad del año producimos exactamente 1000 MWh por día y en la segunda mitad, producimos 2000 MWh por día. Luego, la media y la varianza de la producción de energía en la primera y la mitad de los segundos son 1000 y 2000 para la media y la varianza es 0 para ambas mitades. Ahora hay dos cosas diferentes que pueden interesarnos:

    1- Queremos calcular la varianza de la producción de energía durante todo el año : luego, promediando las dos varianzas, llegamos a cero, lo cual no es correcto ya que la energía por día en el total año no es constante. En este caso, debemos sumar la varianza de todas las medias de cada subconjunto. Matemáticamente, en este caso, la variable aleatoria de interés es la producción de energía por día. Tenemos estadísticas de muestra sobre subconjuntos y queremos calcular la muestra estadísticas durante un período más largo.

    2- Queremos calcular la variación de la producción de energía por año: En otras palabras, nos interesa saber cuánto cambia la producción de energía de un año a otro. En este caso, promediar la varianza conduce a la respuesta correcta que es 0, ya que en cada año estamos produciendo exactamente 1500 MHW en promedio. Matemáticamente, en este caso, la variable aleatoria de interés es el promedio de producción de energía por día, donde el promedio se realiza durante todo el año.

    Comentarios

    • Buena respuesta. En mi opinión, cómo calcularlo depende de cómo desee presentar la SD resultante (y qué hipótesis desea abordar utilizando esta SD, si está tratando de comparar con otro parque eólico, etc.).

    Respuesta

    Me gustaría enfatizar nuevamente la incorrección en parte de la respuesta aceptada. La redacción de la pregunta genera confusión.

    La pregunta tiene Promedio y StdDev de cada mes, pero no está claro qué tipo de subconjunto se usa. ¿Es el promedio de 1 aerogenerador de todo el parque o el promedio diario de todo el parque? Si es el promedio diario de cada mes, no puede sumar el promedio mensual para obtener el promedio anual porque no tienen el mismo denominador. Si es el promedio de la unidad, la pregunta debe indicar

    Podemos decir que en el año promedio cada turbina en el parque eólico produce 10,358 MWh, …

    En lugar de

    Podemos decir que en el año promedio el parque eólico produce 10.358 MWh, …

    Además, La desviación o varianza estándar es la comparación con el promedio del propio conjunto. NO contiene ninguna información sobre el promedio de su conjunto padre (el conjunto más grande del cual el conjunto calculado es un componente).

    Visualización de varianza

    La imagen no es necesariamente muy precisa, pero transmite la idea general. Imaginemos la salida de un parque eólico como en la imagen. Como puede ver, la varianza » local » no tiene nada que ver hacer con la varianza » global «, sin importar cómo las sume o multiplique. Si agrega la » local » varianzas juntas, será muy pequeño en comparación con el » global » varianza. No se puede predecir la varianza del año utilizando la varianza de 2 semestres. Por lo tanto, en la respuesta aceptada, mientras que el cálculo de la suma es correcto, la división por 12 para obtener el número mensual no significa nada. . De las tres secciones, la primera y la última sección son incorrectas, la segunda es correcta.

    De nuevo, «es una aplicación muy incorrecta, por favor no la siga o le traerá problemas. Simplemente calcule todo, utilizando la producción total anual / mensual de cada unidad como puntos de datos, dependiendo de si desea un número anual o mensual, esa debería ser la respuesta correcta. Probablemente quieras algo como esto. Estos son mis números generados aleatoriamente. Si tiene los datos, el resultado en la celda O2 debería ser su respuesta.

    ingrese la descripción de la imagen aquí

    Comentarios

    • Muchas gracias por la imagen que me ayudó mucho a entender por qué la respuesta aceptada está incompleta y puede incluso estar equivocado. ¡Lo explicaste muy bien, gracias!
    • Esto muestra el peligro de votar. Las personas que votan son las personas que no ‘ no conocen la respuesta. En oposición a la codificación, las personas que votan son las que hacen que el código funcione, mientras más votos, mejor es la respuesta.Para estadística / matemáticas, más votos solo significa que ‘ es más atractivo.

    Responder

    TL; DR

    Dados varios días, y para cada día se nos da su Promedio, Muestra StdDev y el número de Muestras, indicado como: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Nos gustaría calcular el Promedio y la Muestra StdDev en todos los días.

    El promedio es simplemente un promedio ponderado: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$

    Ejemplo de StdDev es esto: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Donde el subíndice d denota un día que recopilamos Promedio, Muestra StdDev y número de Muestras.

    Detalles

    Hemos tenido un problema similar en el que tuvimos un proceso que calcula un Promedio diario y Muestra StdDev y guarda junto con el número de muestras diarias. Usando esta entrada tuvimos que calcular un Promedio semanal / mensual y StdDev. El número de muestras por día no fue constante en nuestro caso.

    Denote el promedio, muestra StdDev y el número de muestras del conjunto completo como: $$ \ mu, \ \ sigma \ y \ N \ $$ Y para el día d indica el promedio, la evolución estándar de la muestra y el número de muestras como: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Calcular el promedio del conjunto completo es simplemente un promedio ponderado de los días «Promedios en cuestión: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Pero las cosas son mucho más complicadas cuando se considera Sample StdDev. Para una muestra de StdDev de un día tenemos: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Primero un poco de limpieza: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Veamos el término del lado derecho de la ecuación anterior. Si podemos llegar de esta suma a la siguiente suma por día: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ , entonces sumamos los días nos darán lo que estamos buscando, ya que los días están separados y cubren todo el conjunto: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ La información para obtener de la StdDev diaria a la StdDev del conjunto completo es notar que, si bien no tenemos las muestras diarias, tenemos la suma de las muestras diarias a través del promedio diario . Dada esta información, trabajemos en el término del lado derecho de la ecuación anterior: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ En este punto no hicimos nada más que sumar y restar términos que pondrán a cero manteniendo la ecuación igual. Ahora que sumamos N d en todas las sumas, reescribamos el sumas por diversión y beneficio: $$ \ require {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ Las sumas son superiores a j , por lo que los términos de suma que no dependen de j se pueden simplemente multiplicar por N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Y nos estamos acercando: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Ahora manejemos el término más a la derecha ya que no podemos usar x j directamente, pero podemos usar su suma ya que tenemos el promedio de ese día. Simplemente multiplique y divida por N d para obtener el promedio: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ En este punto tenemos la suma que necesitamos calcular Muestra StdDev del conjunto completo y todos los demás términos son cantidades que conocemos, es decir, estadísticas del día y número de muestras.Vuelva a conectarlo al paso de limpieza anterior: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Ahora estamos listos para calcular el conjunto «s Sample StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$

    Comentarios

    • Tu notación me confunde un poco ya que no ‘ t aclara qué significa & desviaciones estándar son parámetros conocidos (asumidos) & que son estimaciones de muestra.
    • Los valores conocidos son Nd, Mu-d, Sigma-d, necesitamos calcular N, Mu, Sigma. Calcular N y Mu es trivial, Sigma es el involucrado ..

    Responder

    Creo lo que puedas lo que realmente me interesa es el error estándar en lugar de la desviación estándar.

    El error estándar de la media (SEM) es el estándar desviación de la estimación de la media muestral de una media poblacional, y eso le dará una medida de cuán buena es su estimación anual de MWh.

    Es muy fácil de calcular: si usa $ n $ samples para obtener los promedios de MWh mensuales y las desviaciones estándar, simplemente calcularía la desviación estándar como sugirió @IanBoyd y la normalizaría por el tamaño total de su muestra. Es decir,
    $$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *