Jai une moyenne mensuelle pour une valeur et un écart type correspondant à cette moyenne. Je calcule maintenant la moyenne annuelle comme la somme des moyennes mensuelles, comment puis-je représenter lécart type de la moyenne additionnée?
Par exemple, en considérant la production dun parc éolien:
Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250
On peut dire que dans lannée moyenne le parc éolien produit 10 358 MWh, mais quel est lécart type correspondant à ce chiffre?
Commentaires
- Une discussion faisant suite à une réponse désormais supprimée a noté une ambiguïté possible dans cette question: recherchez-vous le SD des moyennes mensuelles ou souhaitez-vous récupérer le SD de toutes les valeurs originales à partir desquelles ces moyennes ont été construites? Cette réponse a également souligné à juste titre que si vous voulez ce dernier, vous aurez besoin du nombre de valeurs impliquées dans chacune des moyennes mensuelles.
- Un commentaire sur une autre réponse supprimée a souligné quil est étrange de calculer une moyenne sous forme de somme : vous voulez sûrement dire que vous faites la moyenne des moyennes mensuelles. Mais si vous voulez estimer la moyenne de toutes les données originales, alors une telle procédure nest généralement pas bonne: une moyenne pondérée est nécessaire. Et bien sûr, il ‘ nest pas possible de donner une bonne réponse à votre question sur le » SD pour la moyenne cumulée » jusquà ce quil soit clair ce quest la » moyenne additionnée » et ce quelle est censée représenter. Veuillez clarifier cela pour nous.
- @whuber Jai ajouté un exemple pour clarifier. Mathématiquement, je crois que la somme des moyennes est égale à la moyenne mensuelle multipliée par 12.
- Oui, klonq, cest une demande très raisonnable. Cependant, ces réponses ont été supprimées par leur propriétaire, pas par la communauté. Pour préserver leur valeur, jai tenté ici de relayer (mon point de vue) les idées clés qui ressortent de ces réponses et de leurs commentaires. BTW, vos modifications récentes sont très utiles: les gens aiment voir des exemples de données.
- Le calcul de la moyenne de la variance et donc le calcul de lécart-type moyen peut ‘ être le réponse entière! Tout cela représente la variance moyenne de la mesure de la puissance en un seul mois. Cest un bon début pour obtenir une mesure précise de lerreur de mesure mais ‘ t cet écart type de 232 doit être combiné dune manière ou dune autre avec la variation INTERMENSUELLE de la puissance de sortie. cest-à-dire que je pense que lécart-type final résultant pour la grande moyenne devrait être un peu supérieur à 232 si vous tenez compte de lerreur combinée de mesure des deux dans chaque mois ainsi que de BET
Réponse
Réponse courte: Vous faites la moyenne des variances ; alors vous pouvez prendre la racine carrée pour obtenir la moyenne écart-type .
Exemple
Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964
Et puis l écart type moyen est sqrt(53,964) = 232
De Somme des variables aléatoires normalement distribuées :
Si $ X $ et $ Y $ sont des variables aléatoires indépendantes qui sont normalement distribuées (et donc aussi conjointement), alors leur somme est également normalement distribuée
… la somme de deux indépendantes normalement les variables aléatoires distribuées sont normales, sa moyenne étant la somme des deux moyennes, et sa variance étant la somme des deux variances
Et de Wolfram Alpha « s Distribution de la somme normale :
Étonnamment, la distribution dune somme de deux indépendant normalement distribué varie $ X $ et $ Y $ avec les moyennes et v ariances $ (\ mu_X, \ sigma_X ^ 2) $ et $ (\ mu_Y, \ sigma_Y ^ 2) $, respectivement, est une autre distribution normale
$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$
qui a une moyenne
$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$
et une variance
$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$
Pour vos données:
- somme:
10,358 MWh
- variance:
647,564
- écart type:
804.71 ( sqrt(647564) )
Pour répondre à votre question:
- Comment « additionner » un écart type ?
-
Vous les additionnez quadratiquement:
s = sqrt(s1^2 + s2^2 + ... + s12^2)
Conceptuellement, vous additionnez les variances , puis prenez la racine carrée pour obtenir lécart type.
Parce que jétais curieux, je voulais connaître la puissance moyenne mensuelle moyenne , et son écart type . Par induction, nous avons besoin de 12 distributions normales qui:
- somme à une moyenne de
10,358
- somme à une variance de
647,564
Ce serait 12 distributions mensuelles moyennes de:
- moyenne de
10,358/12 = 863.16
- variance de
647,564/12 = 53,963.6
- écart-type de
sqrt(53963.6) = 232.3
Nous pouvons vérifier nos distributions mensuelles moyennes en les additionnant 12 fois, pour voir quelles égal à la distribution annuelle:
- Moyenne:
863.16*12 = 10358 = 10,358
( correct ) - Variance:
53963.6*12 = 647564 = 647,564
( correct )
Remarque : je « laisserai à quelquun ayant une connaissance des mathématiques ésotériques du Latex le soin de convertir mes images de formule, et
formula code
en formules formatées stackexchange.
Modifier : Jai déplacé le court vers le point, répondez en haut. Parce que javais besoin de le refaire aujourdhui, mais que je voulais vérifier que je moyenne les variances .
Commentaires
- Tout cela semble supposer que les mois ne sont pas corrélés – avez-vous rendu cette hypothèse explicite quelque part? Aussi, pourquoi devons-nous introduire la distribution normale? Si nous ‘ ne parlons que de variance, cela semble inutile – par exemple, voir ma réponse ici
- @Marco Parce que je pense mieux en images et que tout est plus facile à comprendre.
- @Marco Aussi, je crois que cette question a commencé sur le site (maintenant disparu) stats.stackexchange. Un mur de formules est moins accessible que des traitements plus simples, graphiques et moins rigoureux.
- Je doute que ce soit correct. Imaginez deux ensembles de données avec chacun une seule mesure chacun. Leur variance de chaque ensemble est de 0, mais lensemble des deux mesures a une variance supérieure à 0 si les points de données diffèrent.
- @Njol, je pense que ‘ s pourquoi nous supposons que toutes les variables ont une distribution normale. Et nous pouvons le faire ici, car nous parlons de mesure phisique. Dans votre exemple, les deux variables ne sont pas normalement distribuées.
Réponse
Cest une vieille question mais la réponse est acceptée nest pas réellement correct ou complet. Lutilisateur souhaite calculer lécart-type sur des données de 12 mois où la moyenne et lécart-type sont déjà calculés sur chaque mois. En supposant que le nombre déchantillons pour chaque mois est le même, il est alors possible de calculer la moyenne et la variance de léchantillon sur lannée à partir des données de chaque mois. Par souci de simplicité, supposons que nous avons deux ensembles de données:
$ X = \ {x_1, …. x_N \} $
$ Y = \ {y_1, …., y_N \} $
avec des valeurs connues de la moyenne de léchantillon et de la variance de léchantillon, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .
Nous voulons maintenant calculer les mêmes estimations pour
$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .
Considérez que $ \ mu_x $ , $ \ sigma ^ 2_x $ sont calculés comme suit:
$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $
$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $
Pour estimer la moyenne et la variance sur lensemble total, nous devons calculer:
$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ qui est donné dans la réponse acceptée. Pour la variance, cependant, lhistoire est différente:
$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $
$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $
$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $
Donc, si vous avez la variance sur chaque sous-ensemble et que vous voulez la variance sur lensemble de lensemble, vous pouvez faire la moyenne des variances de chaque sous-ensemble si elles ont toutes la même moyenne. Sinon, vous devez ajouter la variance de la moyenne de chaque sous-ensemble.
Disons quau cours du premier semestre, nous produisons exactement 1000 MWh par jour et dans la seconde moitié, nous produisons 2000 MWh par jour. Ensuite, la moyenne et la variance de la production dénergie en premier et la moitié des secondes vaut 1000 et 2000 pour la moyenne et la variance est 0 pour les deux moitiés. Maintenant, il y a deux choses différentes qui pourraient nous intéresser:
1- On veut calculer la variance de la production dénergie sur toute lannée : puis en faisant la moyenne des deux variances on arrive à zéro, ce qui nest pas correct puisque lénergie par jour sur lensemble lannée nest pas constante. Dans ce cas, nous devons ajouter la variance de toutes les moyennes de chaque sous-ensemble. Mathématiquement, dans ce cas, la variable aléatoire dintérêt est la production dénergie par jour. Nous avons des exemples de statistiques sur des sous-ensembles et nous voulons calculer léchantillon statistiques sur une période plus longue.
2- Nous voulons calculer la variance de la production dénergie par an: En dautres termes, nous nous intéressons à la variation de la production dénergie dune année à lautre. Dans ce cas, la moyenne de la variance conduit à la bonne réponse qui est 0, car chaque année, nous produisons exactement 1500 MHW en moyenne. Mathématiquement, dans ce cas, la variable aléatoire dintérêt est la moyenne de la production dénergie par jour où la moyenne est effectuée sur toute lannée.
Commentaires
- Bonne réponse. À mon avis, la façon de le calculer dépend de la façon dont vous souhaitez présenter la SD résultante (et de lhypothèse que vous souhaitez traiter en utilisant cette SD, si vous essayez de comparer à un autre parc éolien, etc.).
Réponse
Je « voudrais souligner à nouveau le caractère incorrect dune partie de la réponse acceptée. La formulation de la question prête à confusion.
La question a Average et StdDev de chaque mois, mais on ne sait pas quel type de sous-ensemble est utilisé. Est-ce la moyenne dune éolienne de lensemble de la ferme ou la moyenne quotidienne de lensemble de la ferme? Sil sagit de la moyenne quotidienne de chaque mois, vous ne pouvez pas additionner la moyenne mensuelle pour obtenir la moyenne annuelle car ils nont pas le même dénominateur. Sil sagit de la moyenne de lunité, la question doit indiquer
Nous pouvons dire que dans lannée moyenne chaque turbine de le parc éolien produit 10 358 MWh, …
Au lieu de
On peut dire que dans lannée moyenne le parc éolien produit 10 358 MWh, …
De plus, Lécart type ou la variance est la comparaison avec la propre moyenne de lensemble. Il ne contient PAS dinformations concernant la moyenne de son ensemble parent (le plus grand ensemble dont lensemble calculé est un composant).
Limage nest pas forcément très précise, mais elle transmet lidée générale. Imaginons la sortie dun parc éolien comme dans limage. Comme vous pouvez le voir, la variance » locale » na rien à voir faites avec la variance » globale « , peu importe comment vous les ajoutez ou les multipliez. Si vous ajoutez la » variances locales » ensemble, elles seront très petites comparées aux » globales » variance. Vous ne pouvez pas prédire la variance de lannée en utilisant la variance de 2 semestres. Ainsi, dans la réponse acceptée, alors que le calcul de la somme est correct, la division par 12 pour obtenir le nombre mensuel ne signifie rien. . Des trois sections, la première et la dernière section sont fausses, la seconde est correcte.
Encore une fois, cest « Une très mauvaise application, veuillez ne pas la suivre ou cela vous causera des ennuis. Calculez simplement pour le tout, en utilisant la production annuelle / mensuelle totale de chaque unité comme points de données selon que vous voulez un nombre annuel ou mensuel, cela devrait être la bonne réponse. Vous voulez probablement quelque chose comme ça. Ce sont mes nombres générés au hasard. Si vous avez les données, le résultat dans la cellule O2 devrait être votre réponse.
Commentaires
- Merci beaucoup pour limage qui ma beaucoup aidé à comprendre pourquoi la réponse acceptée est incomplète et peut être même faux. Vous lavez très bien expliqué, merci!
- Cela montre le danger de voter. Les personnes qui votent sont celles qui ne ‘ ne connaissent pas la réponse. Par opposition au codage, les gens qui votent sont ceux qui font fonctionner le code, plus il y a de vote, meilleure est la réponse.Pour les statistiques / mathématiques, plus de votes signifie seulement que ‘ est plus attrayant.
Réponse
TL; DR
Sur plusieurs jours, et pour chaque jour, on nous donne sa moyenne, léchantillon StdDev et le nombre déchantillons, notés comme: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Nous aimerions calculer la moyenne et léchantillon StdDev pour tous les jours.
La moyenne est simplement une moyenne pondérée: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$
Exemple de StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Où indice d indique un jour pour lequel nous avons collecté la moyenne, léchantillon StdDev et le nombre déchantillons.
Détails
Nous avons eu un problème similaire dans lequel nous avons eu un processus qui calcule une moyenne quotidienne et Échantillon de StdDev et enregistre à côté du nombre déchantillons quotidiens. En utilisant cette entrée, nous avons dû calculer une moyenne hebdomadaire / mensuelle et StdDev. Le nombre déchantillons par jour nétait pas constant dans notre cas.
Indiquez la moyenne, échantillon StdDev et nombre déchantillons de lensemble complet comme: $$ \ mu, \ \ sigma \ et \ N \ $$ Et pour le jour d désigne la moyenne, léchantillon StdDev et le nombre déchantillons comme suit: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Calculer la moyenne de lensemble entier « s est simplement une moyenne pondérée des jours » Moyennes en question: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Mais les choses sont beaucoup plus complexes lorsque lon considère Sample StdDev. Pour un exemple de StdDev dune journée, nous avons: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Tout dabord un peu de nettoyage: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Regardons le terme de droite de léquation ci-dessus. Si nous pouvons atteindre de cette somme la somme par jour suivante: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ alors somme sur les jours nous donneront ce que nous cherchons car les jours sont disjoints et couvrent lensemble du jeu: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ La perspicacité à obtenir de StdDev quotidien à lensemble entier « s StdDev est de remarquer que même si nous ne » t avoir les échantillons quotidiens, nous avons la somme des échantillons quotidiens par le biais de la moyenne quotidienne . Compte tenu de cet aperçu, travaillons sur le terme de droite de léquation ci-dessus: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ À ce stade, nous navons rien fait dautre que dajouter et de soustraire des termes qui mettront à zéro en gardant léquation la même. sommations pour le plaisir et le profit: $$ \ require {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ Les sommations sont supérieures à j donc les termes de sommation qui ne dépendent pas de j peuvent être simplement multipliés par N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Et nous nous rapprochons: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Maintenant, traitons le terme le plus à droite car nous ne pouvons pas utiliser x j directement mais nous pouvons utiliser sa somme comme nous avons la moyenne de ce jour-là. Multipliez et divisez simplement par N d pour obtenir la moyenne: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ À ce stade, nous avons la somme dont nous avons besoin pour calculer léchantillon StdDev de lensemble entier et tous les autres termes sont des quantités que nous connaissons, à savoir les statistiques du jour et le nombre déchantillons.Rebranchez-le à létape de nettoyage ci-dessus: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Nous sommes maintenant prêts à calculer lensemble « s Sample StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$
Commentaires
- Votre notation est un peu déroutante pour moi car il ne ‘ t indique clairement ce qui signifie que & les écarts types sont des paramètres connus (supposés) & qui sont des exemples destimations.
- Les valeurs connues sont Nd, Mu-d, Sigma-d, nous devons calculer N, Mu, Sigma. Calculer N et Mu est trivial, Sigma est celui qui est impliqué.
Réponse
Je crois ce que vous pouvez être vraiment intéressé par l erreur standard plutôt que par lécart type.
Lerreur standard de la moyenne (SEM) est la norme écart de lestimation de la moyenne de léchantillon dune moyenne de population, et cela vous donnera une mesure de la qualité de votre estimation annuelle de MWh.
Cest très facile à calculer: si vous avez utilisé $ n $ samples pour obtenir vos moyennes mensuelles en MWh et vos écarts types, il vous suffit de calculer lécart type comme @IanBoyd la suggéré et de le normaliser par la taille totale de votre échantillon. Autrement dit,
$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$