표준 편차를 ' 합 '하는 방법은 무엇입니까?

값에 대한 월 평균과 해당 평균에 해당하는 표준 편차가 있습니다. 이제 연간 평균을 월 평균의 합계로 계산하고 있습니다. 합계 평균의 표준 편차를 어떻게 나타낼 수 있습니까?

예를 들어 풍력 발전 단지의 출력을 고려할 때 :

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 

풍력 단지가 평균 연간 10,358MWh를 생산한다고 말할 수 있지만이 수치에 해당하는 표준 편차는 얼마입니까?

댓글

  • 지금 삭제 된 회신 이후의 토론에서이 질문에 가능한 모호성 이 언급되었습니다. 월 평균의 SD를 찾습니까 아니면 SD를 복구 하시겠습니까? 그 평균이 구성되는 모든 원래 값의? 그 대답은 또한 후자를 원한다면 월 평균 각각에 관련된 값의 수가 필요하다는 것을 정확하게 지적했습니다.
  • 다른 삭제 된 대답에 대한 의견은 계산하는 것이 이상하다고 지적했습니다. 평균을 : 확실히 당신은 월 평균을 평균 한다는 것을 의미합니다. 그러나 원하는 것이 모든 원본 데이터의 평균을 추정하는 것이라면 이러한 절차는 일반적으로 좋은 절차가 아닙니다. 가중 평균이 필요합니다. 물론 ‘ 합계 평균 iv id =의 ” SD에 대한 질문에 대한 좋은 답변을 제공 할 수 없습니다. “a88ac3c035”>

” 합계 평균 “이 무엇이며 무엇을 나타낼 지 명확해질 때까지. 우리를 위해 그것을 명확히 해주십시오.

  • @whuber 명확히하기 위해 예제를 추가했습니다. 수학적으로 저는 평균의 합이 월 평균에 12를 곱한 값이라고 생각합니다.
  • 예, klonq, 매우 합리적인 요청입니다. 그러나 이러한 답글은 커뮤니티가 아닌 소유자가 삭제했습니다. 그들의 가치를 보존하기 위해 나는 여기에서 그 답글과 댓글에서 발생하는 핵심 아이디어를 전달하려고 시도했습니다. BTW, 최근 수정 사항은 매우 유용합니다. 사람들은 예제 데이터를보고 싶어합니다.
  • 분산을 평균화하여 평균 표준 편차를 계산하면 ‘ 전체 답변! 이 모든 것은 한 달 동안 전력 출력을 측정하는 평균 편차입니다. 이것은 측정 오류에 대한 정확한 게이지를 얻기위한 좋은 시작이지만 ‘이 표준 편차 232를 어떤 방식 으로든 전력 출력의 월간 변동과 결합 할 필요는 없습니다. 즉, BET뿐만 아니라 매월 측정의 결합 오류를 고려하면 Grand Mean의 최종 결과 표준 편차가 232보다 약간 높아야한다고 생각합니다.
  • 답변

    짧은 답변 : 평균 변이 ; 그런 다음 제곱근을 사용하여 평균 표준 편차 를 구할 수 있습니다.


    Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964 

    그리고 평균 표준 편차 sqrt(53,964) = 232입니다.


    From 정규 분포 랜덤 변수의 합계 :

    $ X $와 $ Y $가 정규 분포를 따르는 (따라서 공동으로 분포되는) 독립 랜덤 변수 인 경우 해당 합계도 정규 분포를 따릅니다.

    … 정상적으로 독립된 두 개의 합계 분산 랜덤 변수는 정상이며 평균은 두 평균의 합이고 분산은 두 분산의 합입니다.

    그리고 Wolfram Alpha에서 “s 정상 합계 분포 :

    놀랍게도 2의 합계 분포 정규 분포 독립은 평균과 v로 $ X $와 $ Y $를 변량합니다. ariances $ (\ mu_X, \ sigma_X ^ 2) $ 및 $ (\ mu_Y, \ sigma_Y ^ 2) $는 각각 또 다른 정규 분포입니다.

    $$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {-[u-(\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

    평균

    $$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

    및 분산

    $$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

    데이터 :

    • sum : 10,358 MWh
    • 분산 : 647,564
    • 표준 편차 : 804.71 ( sqrt(647564) )

    여기에 이미지 설명 입력

    귀하의 질문에 답하려면 :

    • 표준 편차를 “합산”하는 방법 ?
    • 2 차적으로 합산합니다.

      s = sqrt(s1^2 + s2^2 + ... + s12^2) 

    개념적으로 분산을 합산합니다. , 그런 다음 제곱근을 취하여 표준 편차를 구하십시오.


    호기심이 많아서 월평균 평균 전력을 알고 싶었습니다. 표준 편차 입니다. 귀납법을 통해 12 개의 정규 분포가 필요합니다.

    • 10,358
    • 분산
    • 의 평균 합계 div id = “dbaa10f664”>

    다음의 12 개의 평균 월별 배포입니다.

    • 647,564/12 = 53,963.6의 분산
    • sqrt(53963.6) = 232.3 의 표준 편차 li>

    여기에 이미지 설명 입력

    월 평균 분포를 12 번 더하여 확인할 수 있습니다. 연간 분포와 같음 :

    • 평균 : 863.16*12 = 10358 = 10,358 ( 올바른 )
    • 분산 : 53963.6*12 = 647564 = 647,564 ( 올바른 )

    참고 : 내 공식 이미지를 변환하기 위해 난해한 Latex 수학에 대한 지식이있는 사람에게 맡기고 formula code를 stackexchange 형식의 수식으로 변환합니다. / p>

    편집 : 단편을 요점은 위로 대답하십시오. 오늘 다시이 작업을 수행해야했지만 변형 평균 하는지 다시 확인하고 싶었습니다.

    댓글

    • 이 모든 것은 월이 서로 관련이 없다고 가정하는 것 같습니다. 그 가정을 어디에서나 명시 적으로 설정 했습니까? 또한 왜 우리는 정규 분포를 가져와야합니까? ‘ 분산에 대해서만 이야기하는 경우 불필요 해 보입니다. 예를 들어 여기 li에서 제 답변을 참조하세요. >
    • @Marco 저는 사진에서 더 잘 생각하고 모든 것을 이해하기 쉽게 만들기 때문입니다.
    • @Marco 또한이 질문은 (현재는 없어진) stats.stackexchange 사이트에서 시작되었다고 생각합니다. 공식 벽 은 더 단순하고 그래픽 적이며 덜 엄격한 처리보다 접근성이 떨어집니다.
    • 정확하지 않은 것 같습니다. 각각 하나의 측정 만있는 두 개의 데이터 세트를 상상해보십시오. 각 세트의 분산은 0이지만 데이터 포인트가 다르면 두 측정 세트의 분산이 0보다 큽니다.
    • @Njol, 제 생각에는 ‘ 모든 변수가 정규 분포를 갖는다 고 가정하는 이유입니다. 그리고 우리는 물리적 측정에 대해 이야기하기 때문에 여기서 할 수 있습니다. 귀하의 예에서 두 변수는 모두 정규 분포를 따르지 않습니다.

    답변

    이것은 오래된 질문이지만 답변이 허용됩니다. 실제로 정확하거나 완전하지 않습니다. 사용자는 평균 및 표준 편차가 이미 매월 계산 된 12 개월 데이터에 대한 표준 편차를 계산하려고합니다. 매월 샘플 수가 같다고 가정하면 매월 데이터에서 연도 별 샘플 평균과 분산을 계산할 수 있습니다. 간단하게하기 위해 두 가지 데이터 세트가 있다고 가정합니다.

    $ X = \ {x_1, …. x_N \} $

    $ Y = \ {y_1, …., y_N \} $

    알려진 표본 평균 및 표본 분산 값, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .

    이제

    $ Z에 대해 동일한 추정치를 계산하려고합니다. = \ {x_1, …., x_N, y_1, …, y_N \} $ .

    $ \ mu_x $ 고려 , $ \ sigma ^ 2_x $ 는 다음과 같이 계산됩니다.

    $ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

    $ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N}-\ mu ^ 2_x $

    총 세트에 대한 평균과 분산을 추정하려면 다음을 계산해야합니다.

    $ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ 는 수락 된 답변에 제공됩니다. 그러나 차이의 경우 이야기는 다릅니다.

    $ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N}-\ mu ^ 2_z $

    $ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N}-\ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N}- \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y)-(\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $

    $ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $

    따라서 각 하위 집합에 대한 분산이 있고 전체 집합에 대한 분산을 원하는 경우 각 하위 집합의 평균이 동일한 경우 각 하위 집합의 분산을 평균화 할 수 있습니다. 그렇지 않으면 각 부분 집합의 평균 분산을 추가해야합니다.

    상반기 동안 우리는 정확히 하루에 1000 MWh를 생산하고 초반에는 하루에 2000 MWh를 생산한다고 가정 해 봅시다. 그런 다음 첫 번째와 에너지 생산의 평균과 분산은 초 절반은 평균의 경우 1000과 2000이고 분산은 두 절반의 경우 0입니다. 이제 관심을 가질만한 두 가지 항목이 있습니다.

    1- 1 년 동안 에너지 생산의 분산을 계산하려고합니다 : 그런 다음 두 분산을 평균하여 0에 도달합니다. 이는 전체에 대한 일일 에너지이므로 정확하지 않습니다. 연도는 일정하지 않습니다.이 경우 각 하위 집합의 모든 평균의 분산을 추가해야합니다. 수학적으로이 경우 관심있는 랜덤 변수는 일일 에너지 생산입니다. 하위 집합에 대한 표본 통계가 있고 표본을 계산하려고합니다. 더 긴 시간에 대한 통계.

    2- 연간 에너지 생산의 분산을 계산하려고합니다. 다시 말해 우리는 1 년에서 다른 1 년으로 얼마나 많은 에너지 생산이 변하는 지에 관심이 있습니다. 이 경우 분산을 평균화하면 정답이 0이됩니다. 매년 평균적으로 정확히 1500 MHW를 생산하기 때문입니다. 수학적으로이 경우 관심있는 랜덤 변수는 평균화가 1 년 동안 수행되는 일일 에너지 생산의 평균입니다.

    댓글

    • 좋은 답변입니다. 제 생각에, 그것을 계산하는 방법은 결과 SD를 어떻게 제시하고 싶은지에 달려 있습니다 (그리고 다른 풍력 발전 단지와 비교하려는 경우이 SD를 사용하여 어떤 가설을 다루고 싶은지).

    답변

    허용되는 답변의 일부에 대한 부정확성을 다시 강조하고 싶습니다. 질문의 표현은 혼란을 야기합니다.

    이 질문에는 매달 Average 및 StdDev가 있지만 어떤 종류의 하위 집합이 사용되는지는 확실하지 않습니다. 전체 농장의 1 개의 풍력 터빈의 평균입니까 아니면 전체 농장의 일일 평균입니까? 매월 일일 평균 인 경우 분모가 같지 않기 때문에 월 평균을 더하여 연간 평균을 구할 수 없습니다. 단위 평균 인 경우 질문에

    평균 연도 풍력 단지의 각 터빈은 10,358MWh를 생산합니다.

    대신

    우리는 풍력 발전 단지가 평균 연간 10,358MWh를 생산한다고 말할 수 있습니다.

    더 나아가, 표준 편차 또는 분산은 세트의 자체 평균에 대한 비교입니다. 상위 집합 (계산 된 집합이 구성되는 더 큰 집합)의 평균 에 대한 정보는 포함되어 있지 않습니다.

    분산 시각화

    이미지가 반드시 정확하지는 않지만 일반적인 아이디어를 전달합니다. 이미지에서와 같이 하나의 풍력 발전 단지의 출력을 상상해 보겠습니다. 보시다시피 ” 지역 ” 분산은 ” 전역 ” 분산을 더하거나 곱하는 방법에 관계없이 수행합니다. 로컬 ” 분산을 함께 사용하면 ” 글로벌 ” 분산입니다. 2 년 반기 분산을 사용하여 연도의 분산을 예측할 수 없습니다. 따라서 허용 된 답변에서는 합계 계산이 정확하지만 월별 번호를 얻는 12는 아무 의미가 없습니다. . 세 섹션 중 첫 번째 섹션과 마지막 섹션이 잘못되었고 두 번째 섹션이 옳습니다.

    다시 말하지만 “매우 잘못된 응용 프로그램입니다. 따르지 마십시오. 그렇지 않으면 문제가 발생할 수 있습니다. 연간 또는 월간 번호를 원하는지 여부에 따라 각 단위의 총 연간 / 월간 출력을 데이터 포인트로 사용하여 전체를 계산하면 정답이 될 것입니다. 아마도 이와 같은 것을 원할 것입니다. 이것은 내 무작위로 생성 된 숫자입니다. 데이터가있는 경우 O2 셀의 결과가 답이 될 것입니다.

    여기에 이미지 설명 입력

    댓글

    • 수락 된 답변이 불완전한 이유를 이해하는 데 많은 도움을 준 이미지에 감사드립니다. 심지어 틀렸다. 아주 잘 설명하셨습니다. 감사합니다!
    • 이는 투표의 위험을 보여줍니다. 투표하는 사람들은 답을 모르는 ‘입니다. 코딩과는 반대로 투표하는 사람은 코드를 작동시키는 사람이며, 투표가 많을수록 답이 더 좋습니다.통계 / 수학의 경우 투표가 많을수록 ‘ 더 매력적일뿐입니다.

    답변

    TL; DR

    수일이 주어지며 매일 평균, 샘플 StdDev 및 샘플 수가 제공되며 다음과 같이 표시됩니다. $$ \ mu_d, \ \ sigma_d, \ N_d $$ 모든 요일에 대한 평균 및 샘플 StdDev를 계산하려고합니다.

    평균은 단순히 가중 평균입니다. $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$

    샘플 StdDev는 다음과 같습니다. $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ 여기서 아래 첨자 d 는 평균, 샘플 StdDev 및 샘플 수를 수집 한 날을 나타냅니다.

    세부 정보

    우리는 일일 평균을 계산하는 프로세스가있는 유사한 문제가있었습니다. StdDev 샘플 및 저장 일일 샘플 수와 함께. 이 입력을 사용하여 주간 / 월간 평균 및 StdDev를 계산해야했습니다. 이 경우 일일 샘플 수는 일정하지 않았습니다.

    평균, 샘플 StdDev를 나타냅니다. 전체 세트의 샘플 수 : $$ \ mu, \ \ sigma \ and \ N \ $$ 그리고 d 는 평균, 샘플 StdDev 및 샘플 수를 다음과 같이 나타냅니다. $$ \ mu_d, \ \ sigma_d, \ N_d $$ 전체 세트의 평균을 계산하는 것은 단순히 일의 가중 평균입니다. “문제의 평균 : $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ 하지만 Sample StdDev를 고려할 때 상황이 훨씬 더 복잡합니다. 하루 동안의 샘플 StdDev : $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ 먼저 약간의 정리 : $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ 위 방정식의 우변 항을 살펴 보겠습니다. 이 합계에서 하루에 다음 합계에 도달 할 수있는 경우 : $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ 날이 서로 분리되어 있고 전체 세트를 다루기 때문에 우리가 찾고있는 것을 얻을 수 있습니다. $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ 일일 StdDev에서 전체 세트의 StdDev로 가져 오는 통찰은 일일 샘플이 있으면 일별 평균을 통해 일일 샘플의 합계를 얻습니다 . 이 통찰력이 주어지면 위 방정식의 우변 항에 대해 작업 해 보겠습니다. $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2}-\ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d})-2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ 이 시점에서 우리는 방정식을 동일하게 유지하기 위해 제로화되는 항을 더하고 빼는 것 외에는 아무것도하지 않았습니다. 이제 모든 합계에서 N d 를 합치므로 다음을 다시 작성하겠습니다. 재미와 이익을위한 요약 : $$ \ require {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2}-\ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ 합계는 j 이상이므로 j에 의존하지 않는 합계 용어는 간단히 곱할 수 있습니다. N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ 우리는 점점 가까워지고 있습니다. $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ 이제 x j를 사용할 수 없으므로 맨 오른쪽 항을 처리하겠습니다. 직접 그러나 우리는 그날의 평균과 같이 그 합계를 사용할 수 있습니다. 간단히 곱하고 N d 로 나누면 평균값 : $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j -\ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ 이 시점에서 우리는 계산에 필요한 합계를 얻었습니다 전체 세트의 Sample StdDev 및 기타 모든 용어는 우리가 알고있는 수량, 즉 일 통계 및 샘플 수입니다.위의 정리 단계에 다시 연결해 보겠습니다. $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ 이제 세트의 샘플 StdDev를 계산할 준비가되었습니다. $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$

    댓글

    • 당신의 표기법은 저에게 약간 혼란 스럽습니다. ‘는 & 표준 편차가 알려진 (가정) 매개 변수임을 의미합니다. & 이것은 샘플 추정치입니다.
    • 알고있는 것은 Nd, Mu-d, Sigma-d입니다. N, Mu, Sigma를 계산해야합니다. N과 Mu를 계산하는 것은 사소한 일이고 Sigma는 관련이 있습니다.

    답변

    하지만 정말로 관심이있는 것은 표준 편차가 아닌 표준 오차 입니다.

    평균의 표준 오차 (SEM)가 표준입니다. 모집단 평균에 대한 표본 평균 추정치의 편차를 통해 연간 MWh 추정치가 얼마나 좋은지 측정 할 수 있습니다.

    계산하기가 매우 쉽습니다. $ n을 사용한 경우 $ 샘플을 사용하여 월별 MWh 평균 및 표준 편차를 얻으려면 @IanBoyd가 제안한대로 표준 편차를 계산하고 샘플의 총 크기로 정규화하면됩니다. 즉,
    $$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$

    답글 남기기

    이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다