標準偏差を'合計'するにはどうすればよいですか?

値の月平均と、その平均に対応する標準偏差があります。現在、年平均を月平均の合計として計算していますが、合計平均の標準偏差をどのように表すことができますか?

たとえば、風力発電所からの出力を検討します。

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 

平均年で風力発電所は10,358MWhを生成すると言えますが、この数値に対応する標準偏差はどれくらいですか?

コメント

  • 削除された返信に続くディスカッションで、この質問にあいまいさの可能性が指摘されました。月平均のSDを探しますか、それともSDを回復しますか。それらの平均が構築されたすべての元の値の?その回答はまた、後者が必要な場合は、月平均のそれぞれに含まれる値の数が必要になることを正しく指摘しました。
  • 別の削除された回答へのコメントは、計算するのが奇妙であると指摘しました合計としての平均:確かに、月平均を平均化していることを意味します。ただし、元のすべてのデータの平均を推定する必要がある場合、そのような手順は通常は適切ではありません。加重平均が必要です。そしてもちろん、’合計平均の” SDに関する質問に適切な回答をすることはできません” “合計平均”とは何か、それが何を表すのかが明確になるまで。それを明確にしてください。
  • @whuber明確にするための例を追加しました。数学的には、平均の合計は月平均に12を掛けたものに等しいと思います。
  • はい、klonq、それは非常に合理的な要求です。ただし、これらの返信は、コミュニティではなく、所有者によって削除されました。それらの価値を維持するために、私はここで、それらの返信とそのコメントから生じる重要なアイデアを中継する(私の見解)ことを試みました。ところで、最近の編集は非常に役立ちます。人々はサンプルデータを見たいと思っています。
  • 確かに分散を平均して、平均標準偏差を計算することはできません’全体の答え!これが表すのは、1か月以内の出力測定の平均分散です。これは、測定誤差の正確なゲージを取得するための良いスタートですが、’この232の標準偏差を、電力出力の月ごとの変動と何らかの方法で組み合わせる必要はありません。つまり、各月内とBETの両方の測定における複合誤差を考慮すると、最終的に得られる総平均の標準偏差は232より少し高くなるはずです。

回答

簡単な回答: 分散 ;次に、平方根をとって平均 標準偏差 を取得できます。


Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964 

そして、平均標準偏差sqrt(53,964) = 232です。


正規分布のランダム変数の合計

$ X $と$ Y $が通常分散される(したがって、一緒に分散される)独立したランダム変数である場合、それらの合計も通常分散されます

… 2つの独立した通常の合計分布するランダム変数は正常であり、その平均は2つの平均の合計であり、その分散は2つの分散の合計です

そしてWolframAlphaから”s 正規合計分布

驚くべきことに、2つの合計の分布通常分散された独立変量$ X $と$ Y $は、平均とv分散$(\ mu_X、\ sigma_X ^ 2)$と$(\ mu_Y、\ sigma_Y ^ 2)$は、それぞれ別の正規分布です

$$ P_ {X + Y}(u)= \ frac {1} {\ sqrt {2 \ pi(\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {-[u-(\ mu_X + \ mu_Y)] ^ 2 / [2(\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

平均値

$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

と分散

$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

の場合データ:

  • 合計:10,358 MWh
  • 分散:647,564
  • 標準偏差:804.71 ( sqrt(647564) )

ここに画像の説明を入力

質問に答えるには:

  • 標準偏差を「合計」する方法
  • 二次的に合計します:

    s = sqrt(s1^2 + s2^2 + ... + s12^2) 

概念的には分散を合計します、次に平方根を取り、標準偏差を取得します。


興味があったので、月平均の平均の電力とその標準偏差。誘導により、次の12個の正規分布が必要になります。

  • 合計が10,358
  • 合計が

これは、次の12の平均月次分布になります。

  • 647,564/12 = 53,963.6
  • の分散sqrt(53963.6) = 232.3

ここに画像の説明を入力してください

12回加算することで、月間平均分布を確認できます。年間分布と等しい:

  • 平均:863.16*12 = 10358 = 10,358正しい
  • 分散:53963.6*12 = 647564 = 647,564正しい

:数式画像を変換するために、難解なラテックス数学の知識がある人に任せます。formula codeをstackexchange形式の数式に変換します。

編集:ショートをに移動しましたポイントは、上に答えてください。今日もこれを行う必要がありましたが、平均 分散であることを再確認したかったためです。

コメント

  • これはすべて、月が無相関であると想定しているようです。その想定をどこかで明示的にしましたか?また、なぜ正規分布を導入する必要があるのですか? ‘分散についてのみ話している場合、それは不要のようです。たとえば、私の回答はこちら
  • @Marco私は写真の方がよく考えており、すべてが理解しやすいからです。
  • @Marcoまた、この質問は(現在は機能していない)stats.stackexchangeサイトから始まったと思います。 数式の壁は、単純で、グラフィカルで、厳密性の低い処理よりもアクセスしにくいです。
  • これが正しいとは思えません。それぞれが1つの測定値のみを持つ2つのデータセットを想像してみてください。各セットの分散は0ですが、データポイントが異なる場合、両方の測定値のセットの分散は0より大きくなります。
  • @Njol、’ sすべての変数が正規分布であると仮定する理由。そして、私たちは物理的測定について話しているので、ここでそれを行うことができます。あなたの例では、両方の変数が正規分布していません。

回答

これは古い質問ですが、回答は受け入れられます実際には正しくないか、完全ではありません。ユーザーは、平均と標準偏差がすでに各月で計算されている12か月のデータの標準偏差を計算したいと考えています。各月のサンプル数が同じであると仮定すると、各月のデータから年間のサンプルの平均と分散を計算できます。簡単にするために、2つのデータセットがあると仮定します。

$ X = \ {x_1、…. x_N \} $

$ Y = \ {y_1、….、y_N \} $

サンプル平均とサンプル分散の既知の値、 $ \ mu_x $ $ \ mu_y $ $ \ sigma ^ 2_x $ $ \ sigma ^ 2_y $

ここで、

$ Zについて同じ推定値を計算します。 = \ {x_1、….、x_N、y_1、…、y_N \} $

$ \ mu_x $を検討してください。 $ \ sigma ^ 2_x $ は次のように計算されます。

$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N}-\ mu ^ 2_x $

セット全体の平均と分散を推定するには、次のように計算する必要があります。

$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} =(\ mu_x + \ mu_y) / 2 $ これは受け入れられた回答に記載されています。ただし、差異については、ストーリーが異なります。

$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N}-\ mu ^ 2_z $

$ \ sigma ^ 2_z = \ frac {1 } {2}(\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N}-\ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N}- \ mu ^ 2_y)+ \ frac {1} {2}(\ mu ^ 2_x + \ mu ^ 2_y)-(\ frac {\ mu_x + \ mu_y} {2})^ 2 $

$ \ sigma ^ 2_z = \ frac {1} {2}(\ sigma ^ 2_x + \ sigma ^ 2_y)+(\ frac {\ mu_x- \ mu_y} {2} )^ 2 $

したがって、各サブセットの分散があり、セット全体の分散が必要な場合は、すべてのサブセットの平均が同じであれば、各サブセットの分散を平均できます。それ以外の場合は、各サブセットの平均の分散を追加する必要があります。

年の前半では、1日あたり正確に1000 MWhを生成し、後半では、1日あたり2000 MWhを生成するとします。次に、最初のエネルギー生成の平均と分散、および秒の半分は平均が1000と2000で、分散は両方の半分が0です。ここで、関心のある2つの異なることがあります。

1- 年間のエネルギー生産の分散を計算したい:次に、2つの分散を平均すると、ゼロになります。これは、全体の1日あたりのエネルギーが正しいため正しくありません。年は一定ではありません。この場合、各サブセットのすべての平均の分散を追加する必要があります。数学的には、この場合、対象のランダム変数は1日あたりのエネルギー生産です。サブセットのサンプル統計があり、サンプルを計算します。長期間にわたる統計。

2- 年間のエネルギー生産の分散を計算します。つまり、ある年から別の年にどれだけのエネルギー生産が変化するかに関心があります。この場合、分散を平均すると、正解は0になります。これは、毎年、平均で正確に1500MHWを生成しているためです。数学的には、この場合、対象となる確率変数は1日あたりのエネルギー生産の平均であり、平均化は1年にわたって行われます。

コメント

  • いい答えです。私の意見では、それを計算する方法は、結果のSDをどのように提示するか(および、別の風力発電所などと比較しようとしている場合は、このSDを使用してどの仮説に対処するか)によって異なります。

回答

受け入れられた回答の一部の誤りをもう一度強調したいと思います。質問の文言は混乱を招きます。

質問には毎月の平均と標準偏差がありますが、どの種類のサブセットが使用されているかは不明です。農場全体の風力タービン1基の平均ですか、それとも農場全体の1日平均ですか。毎月の日平均の場合、分母が同じではないため、月平均を合計して年平均を求めることはできません。単位平均の場合、質問には次のように記載する必要があります

平均年には 風力発電所の各タービンは10,358MWhを生成します…

代わりに

平均年で、風力発電所は10,358MWhを生産していると言えます…

さらに、標準偏差または分散は、セット自体の平均との比較です。親セット(計算されたセットがコンポーネントであるより大きなセット)の平均に関する情報は含まれていません。

分散の視覚化

画像は必ずしも正確ではありませんが、一般的な考え方を伝えます。画像のように1つの風力発電所の出力を想像してみましょう。ご覧のとおり、” local “の分散には何もありません。 ” global “の分散は、それらをどのように追加または乗算しても関係ありません。 local “の差異を合わせると、” global “分散。2半年の分散を使用して年の分散を予測することはできません。したがって、受け入れられた回答では、合計の計算は正しいものの、による除算12月の数値を取得しても意味がありません。。3つのセクションのうち、最初と最後のセクションが間違っており、2番目が正しいです。

繰り返しますが、 「非常に間違ったアプリケーションです。従わないでください。そうしないと、問題が発生します。年次または月次のどちらが必要かによって、各ユニットの年次/月次の合計出力をデータポイントとして使用して、全体を計算するだけで、正解になります。あなたはおそらくこのようなものが欲しいでしょう。これは私のランダムに生成された番号です。データがある場合は、セルO2の結果が答えになります。

ここに画像の説明を入力してください

コメント

  • 受け入れられた回答が不完全である理由を理解するのに大いに役立った画像をありがとうございます。さらに間違っている。あなたはそれを非常によく説明しました、ありがとう!
  • これは投票の危険性を示しています。投票する人は、’答えを知らない人です。コーディングとは対照的に、投票する人はコードを機能させる人であり、投票が多ければ多いほど、答えは良くなります。統計/数学の場合、投票数が多いということは、それが’より魅力的であることを意味するだけです。

回答

TL; DR

数日が与えられ、毎日、平均、サンプル標準偏差、およびサンプル数が与えられます。これは、 $$ \ mu_d、\ \ sigma_d、\ N_d $$ すべての日の平均とサンプルの標準偏差を計算したいと思います。

平均は単純に加重平均です: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$

サンプル標準偏差は次のとおりです: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2(N_d-1)+ N_d (\ mu- \ mu_d)^ 2})} {N-1}} $$ ここで添え字 d は、平均、サンプル標準偏差、およびサンプル数を収集した日を示します。

詳細

同様の問題が発生し、1日の平均を計算するプロセスが発生しました。 StdDevのサンプルと保存毎日のサンプル数と一緒に。この入力を使用して、週次/月次の平均と標準偏差を計算する必要がありました。 この場合、1日あたりのサンプル数は一定ではありませんでした。

平均、サンプル標準偏差を示しますセット全体のサンプル数は次のとおりです。 $$ \ mu、\ \ sigma \ and \ N \ $$ および日 d は、平均、サンプル標準偏差、およびサンプル数を次のように示します。 $$ \ mu_d、\ \ sigma_d、\ N_d $$ セット全体の平均の計算は、単に「日数の加重平均」です。問題の平均: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ ただし、サンプルの標準偏差を検討する場合は、さらに複雑になります。 1日のサンプル標準偏差には次のものがあります: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d}(x_j- \ mu_d)^ 2} {N_d-1} } $$ 最初のクリーンアップ: $$ \ sigma_d ^ 2(N_d-1)= \ sum_ {N_d}(x_j- \ mu_d)^ 2 $ $ 上記の方程式の右辺の項を見てみましょう。この合計から1日あたりの合計に達することができる場合: $$ \ sum_ {N_d} {(x_j- \ mu)^ 2} $$ 次に合計日はばらばらであり、セット全体をカバーしているため、日は私たちが探しているものを提供します: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu )^ 2}} = \ sum_ {N} {(x_j- \ mu)^ 2} $$ 毎日のStdDevからセット全体のStdDevに到達するための洞察は、私たちがそうではないことに気付くことです。毎日のサンプルがあります。毎日の平均を通じて毎日のサンプルの合計があります。この洞察を踏まえて、上記の式の右辺の項を調べてみましょう。 $$ \ sum_ {N_d}(x_j- \ mu_d)^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} +(\ sum_ {N_d} {\ mu ^ 2}-\ sum_ {N_d} {\ mu ^ 2})+(2 \ sum_ {N_d} {x_j(\ mu- \ mu_d})-2 \ sum_ {N_d} {x_j(\ mu- \ mu_d}) )$$ この時点では、方程式を同じに保つためにゼロになる項を加算および減算するだけでした。すべての合計でN d を合計するので、次のように書き直します。楽しさと利益のための合計: $$ \ require {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j(\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d})+ \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2}-\ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j(\ mu- \ mu_d })$$ 合計が j を超えているため、jに依存しない合計項に単純に乗算できます。 N d $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j(\ mu- \ mu_d)} $$ そして近づいています: $$ = \ sum_ {N_d} {(x_j- \ mu)^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j(\ mu- \ mu_d)} $$ ここで、x jを使用できないため、右端の項を処理しましょう。 直接ですが、その日の平均があるので、その合計を使用できます。 N d で乗算および除算するだけで、平均が得られます。 $$ = \ sum_ {N_d} {(x_j- \ mu)^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2(\ mu- \ mu_d){N_d}(\ frac {1} {N_d} \ sum_ {N_d} {x_j})\\ = \ sum_ {N_d} {(x_j -\ mu)^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2(\ mu- \ mu_d){N_d} \ mu_d $$ この時点で、計算する必要のある合計があります。セット全体のサンプルStdDevと他のすべての用語は、私たちが知っている量、つまり1日の統計とサンプル数です。上記のクリーンアップ手順に戻しましょう: $$ \ sigma_d ^ 2(N_d-1)= \ sum_ {N_d} {(x_j- \ mu)^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2(\ mu- \ mu_d){N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2(N_d-1)-N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d(\ mu- \ mu_d)= \ sum_ {N_d} {(x_j- \ mu)^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2(N_d-1)+ N_d(\ mu- \ mu_d)^ 2 = \ sum_ {N_d} {(x_j- \ mu)^ 2} $$ これで、セットのサンプル標準偏差を計算する準備ができました: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N}(x_j- \ mu)^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d }(x_j- \ mu)^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2(N_d-1)+ N_d(\ mu- \ mu_d )^ 2})} {N-1}} $$

コメント

  • あなたの表記は私には少し混乱しています。 ‘明確にされていないため、&標準偏差が既知の(想定される)パラメーター&これはサンプルの推定値です。
  • 既知の値はNd、Mu-d、Sigma-dです。N、Mu、Sigmaを計算する必要があります。 NとMuの計算は簡単で、Sigmaが関与します。

回答

私はあなたが何をしてもよいと信じていますただし、本当に関心があるのは、標準偏差ではなく標準誤差です。

平均の標準誤差(SEM)が標準です。人口平均のサンプル平均の推定値の偏差。これにより、年間のMWh推定値がどれだけ優れているかを測定できます。

計算は非常に簡単です。$ nを使用した場合$サンプルを使用して、毎月のMWh平均と標準偏差を取得するには、@ IanBoydが提案したように標準偏差を計算し、サンプルの合計サイズで正規化します。つまり、
$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です