Como ' somar ' um desvio padrão?

Tenho uma média mensal para um valor e um desvio padrão correspondente a essa média. Agora estou computando a média anual como a soma das médias mensais, como posso representar o desvio padrão da média somada?

Por exemplo, considerando a produção de um parque eólico:

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 

Podemos dizer que no ano médio o parque eólico produz 10.358 MWh, mas qual o desvio padrão correspondente a este valor?

Comentários

  • Uma discussão após uma resposta agora excluída observou uma possível ambigüidade nesta questão: você busca o SD das médias mensais ou deseja recuperar o SD de todos os valores originais a partir dos quais essas médias foram construídas? Essa resposta também apontou corretamente que, se você quiser o último, precisará dos números de valores envolvidos em cada uma das médias mensais.
  • Um comentário para outra resposta excluída apontou que é estranho computar uma média como uma soma : certamente você quer dizer que está fazendo a média das médias mensais. Mas se o que você deseja é estimar a média de todos os dados originais, esse procedimento geralmente não é bom: uma média ponderada é necessária. E, claro, ‘ não é possível dar uma boa resposta à sua pergunta sobre o ” SD para a média somada ” até que esteja claro qual é a ” média somada ” e o que ela pretende representar. Esclareça isso para nós.
  • @whuber Eu adicionei um exemplo para esclarecer. Matematicamente, acredito que a soma das médias é igual à média mensal vezes 12.
  • Sim, klonq, essa é uma solicitação muito razoável. No entanto, essas respostas foram excluídas pelo proprietário, não pela comunidade. Para preservar seu valor, tentei transmitir aqui (minha opinião) as idéias-chave que surgiram nessas respostas e em seus comentários. A propósito, suas edições recentes são bastante úteis: as pessoas gostam de ver dados de exemplo.
  • Certamente, calcular a média da variância e, portanto, calcular o desvio padrão médio pode ‘ ser o resposta completa! Tudo isso representa a variação média na medição da produção de energia DENTRO de um único mês. Este é um bom começo para obter uma medida precisa sobre o erro de medição, mas não ‘ este desvio padrão de 232 precisa ser combinado de alguma forma com a variação INTERMENSAL na saída de potência. ou seja, eu acho que o desvio padrão final resultante para a Grande Média deve ser um pouco maior do que 232 se você levar em conta o erro combinado na medição de ambos dentro de cada mês, bem como BET

Resposta

Resposta curta: você calcula a média das variâncias ; então você pode obter a raiz quadrada para obter a média desvio padrão .


Exemplo

Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964 

E então o desvio padrão médio é sqrt(53,964) = 232


De Soma de variáveis aleatórias normalmente distribuídas :

Se $ X $ e $ Y $ são variáveis aleatórias independentes que são normalmente distribuídas (e, portanto, também em conjunto), então sua soma também é normalmente distribuída

… a soma de duas independentes normalmente variáveis aleatórias distribuídas são normais, com sua média sendo a soma das duas médias, e sua variância sendo a soma das duas variâncias

E do Wolfram Alpha “s Distribuição normal da soma :

Incrivelmente, a distribuição de uma soma de dois variáveis independentes normalmente distribuídas $ X $ e $ Y $ com médias ev ariances $ (\ mu_X, \ sigma_X ^ 2) $ e $ (\ mu_Y, \ sigma_Y ^ 2) $, respectivamente, é outra distribuição normal

$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

que tem média

$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

e variância

$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

Para seus dados:

  • soma: 10,358 MWh
  • variação: 647,564
  • desvio padrão: 804.71 ( sqrt(647564) )

insira a descrição da imagem aqui

Então, para responder à sua pergunta:

  • Como “somar” um desvio padrão ?
  • Você os soma quadraticamente:

    s = sqrt(s1^2 + s2^2 + ... + s12^2) 

Conceitualmente, você soma as variâncias e, em seguida, calcule a raiz quadrada para obter o desvio padrão.


Por estar curioso, eu queria saber a potência média mensal, e seu desvio padrão . Por meio da indução, precisamos de 12 distribuições normais que:

  • somam a uma média de 10,358
  • somam a uma variância de 647,564

Isso seria 12 distribuições mensais médias de:

  • média de 10,358/12 = 863.16
  • variação de 647,564/12 = 53,963.6
  • desvio padrão de sqrt(53963.6) = 232.3

insira a descrição da imagem aqui

Podemos verificar nossas distribuições médias mensais adicionando-as 12 vezes, para ver se elas igual à distribuição anual:

  • Média: 863.16*12 = 10358 = 10,358 ( correto )
  • Variância: 53963.6*12 = 647564 = 647,564 ( correto )

Observação : vou deixar que alguém com conhecimento da matemática esotérica do látex converta minhas imagens de fórmulas e formula code nas fórmulas formatadas do stackexchange.

Editar : mudei o short, para o ponto, responda no início. Porque eu precisava fazer isso de novo hoje, mas queria verificar se eu calculava a média das variâncias .

Comentários

  • Isso tudo parece assumir que os meses não estão correlacionados – você deixou essa suposição explícita em algum lugar? Além disso, por que precisamos trazer a distribuição normal? Se ‘ estamos falando apenas sobre variação, isso parece desnecessário – por exemplo, veja minha resposta aqui
  • @Marco Porque penso melhor em imagens e torna tudo mais fácil de entender.
  • @Marco Além disso, acredito que esta questão começou no (agora extinto) site stats.stackexchange. Uma parede de fórmulas é menos acessível do que tratamentos mais simples, gráficos e menos rigorosos.
  • Duvido que esteja correto. Imagine dois conjuntos de dados, cada um com uma única medição cada. A variação de cada conjunto é 0, mas o conjunto de ambas as medidas tem uma variação maior que 0 se os pontos de dados forem diferentes.
  • @Njol, acho que ‘ div É por isso que assumimos que todas as variáveis têm distribuição normal. E podemos fazer isso aqui, porque falamos de medição física. Em seu exemplo, ambas as variáveis não são normalmente distribuídas.

Resposta

Esta é uma pergunta antiga, mas a resposta aceita não está realmente correto ou completo. O usuário deseja calcular o desvio padrão em dados de 12 meses, onde a média e o desvio padrão já são calculados em cada mês. Supondo que o número de amostras em cada mês seja o mesmo, é possível calcular a média e a variação da amostra ao longo do ano a partir dos dados de cada mês. Para simplificar, suponha que temos dois conjuntos de dados:

$ X = \ {x_1, …. x_N \} $

$ Y = \ {y_1, …., y_N \} $

com valores conhecidos de média e variação de amostra, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .

Agora queremos calcular as mesmas estimativas para

$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .

Considere que $ \ mu_x $ , $ \ sigma ^ 2_x $ são calculados como:

$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $

Para estimar a média e a variância sobre o conjunto total, precisamos calcular:

$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ que é dado na resposta aceita. Para a variação, entretanto, a história é diferente:

$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $

$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $

$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $

Portanto, se você tem a variação sobre cada subconjunto e deseja a variação sobre todo o conjunto, então você pode fazer a média das variações de cada subconjunto se todos eles tiverem a mesma média. Caso contrário, você precisa adicionar a variância da média de cada subconjunto.

Digamos que na primeira metade do ano produzamos exatamente 1000 MWh por dia e na segunda metade, produzimos 2.000 MWh por dia. Então, a média e a variância da produção de energia na primeira e a metade dos segundos é 1000 e 2000 para a média e a variância é 0 para ambas as metades. Agora, existem duas coisas diferentes em que podemos estar interessados:

1- Queremos calcular a variância da produção de energia ao longo de todo o ano : então, calculando a média das duas variâncias chegamos a zero, o que não é correto, pois a energia por dia no todo ano não é constante. Nesse caso, precisamos adicionar a variância de todas as médias de cada subconjunto. Matematicamente, neste caso, a variável aleatória de interesse é a produção de energia por dia. Temos estatísticas de amostra sobre subconjuntos e queremos calcular a amostra estatísticas por um período mais longo.

2- Queremos calcular a variação da produção de energia por ano: Em outras palavras, estamos interessados em saber o quanto a produção de energia muda de um ano para outro. Neste caso, a média da variância leva à resposta correta que é 0, já que a cada ano estamos produzindo exatamente 1500 MHW em média. Matematicamente, neste caso, a variável aleatória de interesse é a média da produção de energia por dia, onde a média é feita ao longo de todo o ano.

Comentários

  • Boa resposta. Na minha opinião, como calculá-lo depende de como você deseja apresentar o SD resultante (e qual hipótese você deseja abordar usando este SD, se estiver tentando comparar com outro parque eólico, etc.).

Resposta

Eu gostaria de enfatizar novamente a incorrecção de parte da resposta aceita. A formulação da pergunta pode causar confusão.

A questão tem Média e Desvio padrão de cada mês, mas não está claro que tipo de subconjunto é usado. É a média de 1 turbina eólica de toda a fazenda ou a média diária de toda a fazenda? Se for a média diária de cada mês, você não pode somar a média mensal para obter a média anual porque eles não têm o mesmo denominador. Se for a média da unidade, a pergunta deve ser

Podemos dizer que no ano médio cada turbina em o parque eólico produz 10.358 MWh, …

Em vez de

Podemos dizer que no ano médio o parque eólico produz 10.358 MWh, …

Além disso, O desvio padrão ou variância é a comparação com a própria média do conjunto. Ele NÃO contém nenhuma informação sobre a média de seu conjunto pai (o conjunto maior do qual o conjunto calculado é um componente).

Visualização da variação

A imagem não é necessariamente muito precisa, mas transmite a ideia geral. Vamos imaginar a saída de um parque eólico como na imagem. Como você pode ver, a variação ” local ” não tem nada a ver com fazer com a variação ” global “, não importa como você as adiciona ou multiplica. Se você adicionar a ” local ” variâncias juntas, será muito pequeno em comparação com as ” globais ” variância. Você não pode prever a variância do ano usando a variância de 2 semestres. Portanto, na resposta aceita, embora o cálculo da soma esteja correto, a divisão por 12 para obter o número mensal não significa nada. . Das três seções, a primeira e a última estão erradas, a segunda está certa.

Novamente, “é um aplicativo muito errado, por favor, não o siga ou você terá problemas. Apenas calcule para a coisa toda, usando a produção anual / mensal total de cada unidade como pontos de dados, dependendo se você deseja um número anual ou mensal, que deve ser a resposta correta. Você provavelmente quer algo assim. Estes são meus números gerados aleatoriamente. Se você tiver os dados, o resultado na célula O2 deve ser sua resposta.

insira a descrição da imagem aqui

Comentários

  • Muito obrigado pela imagem que me ajudou muito a entender porque a resposta aceita está incompleta e pode estar até errado. Você explicou muito bem, obrigado!
  • Isso mostra o perigo de votar. As pessoas que votam são aquelas que ‘ não sabem a resposta. Em oposição à codificação, as pessoas que votam são as pessoas que fazem o código funcionar. Quanto mais votos, melhor será a resposta.Para estatística / matemática, mais votos significa apenas ‘ é mais atraente.

Resposta

TL; DR

Dados vários dias, e para cada dia, recebemos sua Média, Desvio Padrão da Amostra e número de Amostras, denotados como: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Gostaríamos de calcular a Média e a Amostra StdDev em todos os dias.

A média é simplesmente uma média ponderada: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$

Amostra StdDev é esta coisa: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Onde subscrito d denota um dia em que coletamos a média, o desvio padrão da amostra e o número de amostras.

Detalhes

Tivemos um problema semelhante no qual tivemos um processo que calcula uma média diária e Amostra StdDev e salva junto com o número de amostras diárias. Usando esta entrada, tivemos que calcular uma média semanal / mensal e um StdDev. O número de amostras por dia não era constante em nosso caso.

Denote a média, desvio padrão da amostra e Número de amostras de todo o conjunto como: $$ \ mu, \ \ sigma \ and \ N \ $$ E para o dia d denota a Média, Desvio Padrão da Amostra e Número de Amostras como: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Calculando todo o conjunto “s A média é simplesmente aa Média ponderada dos dias” Médias em questão: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Mas as coisas são muito mais complicadas quando se considera o Sample StdDev. Para um StdDev de amostra de um dia, temos: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Primeiro, limpe um pouco: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Vejamos o termo do lado direito da equação acima. Se pudermos chegar dessa soma à seguinte soma por dia: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ então somatório os dias nos darão o que estamos procurando, pois os dias são separados e cobrem todo o conjunto: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ O insight para ir do StdDev diário ao StdDev do conjunto inteiro é notar que, embora não temos as amostras diárias, temos a soma das amostras diárias por meio da média diária . Com esse insight, vamos trabalhar no termo do lado direito da equação acima: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ Neste ponto, não fizemos nada além de adicionar e subtrair termos que zerarão mantendo a equação a mesma. Agora, uma vez que somamos N d em todas as somas, vamos reescrever o somas para diversão e lucro: $$ \ require {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ As somas são superiores a j , portanto, os termos da soma que não dependem de j podem ser simplesmente multiplicados por N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ E estamos chegando perto: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Agora vamos lidar com o termo mais à direita, pois não podemos usar x j diretamente, mas podemos usar sua soma, pois temos a média daquele dia. Basta multiplicar e dividir por N d para obter a Média: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ Neste ponto, temos o somatório que precisamos calcular todo o conjunto de StdDev Amostra e todos os outros termos são quantidades que conhecemos, ou seja, estatísticas do dia e número de amostras.Vamos conectá-lo à etapa de limpeza acima: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Agora estamos prontos para calcular o conjunto “s Sample StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$

Comentários

  • Sua notação é um pouco confusa para mim, pois não ‘ não deixa claro o que significa & desvios padrão são parâmetros conhecidos (assumidos) & que são estimativas de amostra.
  • Conhecidos são Nd, Mu-d, Sigma-d, precisamos calcular N, Mu, Sigma. Calcular N e Mu é trivial, Sigma é o que está envolvido.

Resposta

Acredito no que você possa estar realmente interessado no erro padrão em vez do desvio padrão.

O erro padrão da média (SEM) é o padrão desvio da estimativa da média da amostra de uma média da população, e isso lhe dará uma medida de quão boa é a sua estimativa anual de MWh.

É muito fácil de calcular: se você usou $ n $ amostras para obter suas médias MWh mensais e desvios padrão, você apenas calcularia o desvio padrão como @IanBoyd sugeriu e normalizaria pelo tamanho total de sua amostra. Ou seja,
$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ vezes n}} $$

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *