Jag har ett månadsgenomsnitt för ett värde och en standardavvikelse som motsvarar det genomsnittet. Jag beräknar nu det årliga genomsnittet som summan av månadsgenomsnitt, hur kan jag representera standardavvikelsen för det summerade genomsnittet?
Till exempel med tanke på produktion från en vindkraftspark:
Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250
Vi kan säga att vindkraftsparken under det genomsnittliga året producerar 10.358 MWh, men vilken standardavvikelse motsvarar denna siffra?
Kommentarer
- En diskussion efter ett nu borttaget svar noterade en möjlig tvetydighet i denna fråga: söker du SD för de månatliga medelvärdena eller vill du återställa SD av alla de ursprungliga värdena från vilka dessa medelvärden konstruerades? Svaret påpekade också korrekt att om du vill ha det senare kommer du att behöva antalet värden som är involverade i vart och ett av månadsgenomsnitten.
- En kommentar till ett annat borttaget svar påpekade att det är konstigt att beräkna ett genomsnitt som en summa : du menar säkert att du ger ett genomsnitt av de genomsnittliga månaderna. Men om det du vill är att uppskatta genomsnittet av alla originaldata, är en sådan procedur vanligtvis inte bra: ett viktat medel behövs. Och naturligtvis är det ’ inte möjligt att ge ett bra svar på din fråga om ” SD för det summerade genomsnittet ” tills det är klart vad ” summerat genomsnitt ” och vad det är tänkt att representera. Förklara det för oss.
- @ whuber Jag har lagt till ett exempel för att klargöra det. Matematiskt tror jag att summan av medelvärdet är lika med det genomsnittliga genomsnittet gånger 12.
- Ja, klonq, det är en mycket rimlig begäran. Dessa svar raderades dock av ägaren, inte av gruppen. För att bevara deras värde har jag försökt här att vidarebefordra (min uppfattning) de viktigaste idéerna som uppstår i dessa svar och deras kommentarer. BTW, dina senaste ändringar är ganska användbara: människor gillar att se exempeldata.
- Medelvärdet av variansen och därmed beräknar den genomsnittliga standardavvikelsen kan ’ inte vara hela svaret! Allt detta representerar är den genomsnittliga variansen vid mätning av effekt utifrån en enstaka månad. Det här är en bra start för att få en exakt mätning av mätfel men behöver inte ’ t denna standardavvikelse på 232 kombineras på något sätt med INTER-MÅNADSVARIATIONEN i effekt. dvs jag tycker att den slutliga resulterande standardavvikelsen för det stora medelvärdet borde vara lite högre än 232 om du tar hänsyn till det kombinerade felet i mätningen av båda inom varje månad samt BET
Svar
Kort svar: Du ger i genomsnitt varians ; sedan kan du ta kvadratrot för att få genomsnittet standardavvikelse .
Exempel
Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964
Och sedan är den genomsnittliga standardavvikelsen sqrt(53,964) = 232
Från Summan av normalfördelade slumpmässiga variabler :
Om $ X $ och $ Y $ är oberoende slumpmässiga variabler som normalt distribueras (och därför också gemensamt), så fördelas deras summa också normalt
… summan av två oberoende normalt distribuerade slumpmässiga variabler är normalt, med medelvärdet som summan av de två medelvärdet, och dess varians är summan av de två varianserna
Och från Wolfram Alpha ”s Normal sumfördelning :
Otroligt nog är fördelningen av en summa av två normalt distribuerade oberoende variabler $ X $ och $ Y $ med medel och v arianser $ (\ mu_X, \ sigma_X ^ 2) $ respektive $ (\ mu_Y, \ sigma_Y ^ 2) $, är en annan normalfördelning
$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$
vilket har medelvärde
$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$
och varians
$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$
För dina data:
- sum:
10,358 MWh
- varians:
647,564
- standardavvikelse:
804.71 ( sqrt(647564) )
Så för att svara på din fråga:
- Hur ”summerar” en standardavvikelse ?
-
Du summerar dem kvadratiskt:
s = sqrt(s1^2 + s2^2 + ... + s12^2)
Konceptuellt summerar du varianserna , ta sedan kvadratroten för att få standardavvikelsen.
Eftersom jag var nyfiken, ville jag veta den genomsnittliga månaden betyder kraft, och dess standardavvikelse . Genom induktion behöver vi 12 normala fördelningar som:
- summerar till ett medelvärde av
10,358
- summan till en varians av
647,564
Det skulle vara 12 genomsnittliga månatliga fördelningar av:
- medelvärde för
10,358/12 = 863.16
- varians för
647,564/12 = 53,963.6
- standardavvikelse för
sqrt(53963.6) = 232.3
Vi kan kontrollera våra månatliga genomsnittliga distributioner genom att lägga till dem 12 gånger för att se att de lika med den årliga fördelningen:
- Medel:
863.16*12 = 10358 = 10,358
( korrekt ) - Varians:
53963.6*12 = 647564 = 647,564
( rätt )
Obs : jag lämnar det till någon med kunskap om den esoteriska Latex-matematiken för att konvertera mina formelbilder och
formula code
till formaterade formler för stackexchange.
Redigera : Jag flyttade den korta, till poängen, svara uppåt. Eftersom jag behövde göra detta igen idag, men ville kontrollera att jag genomsnitt varianserna .
Kommentarer
- Allt detta antar att månaderna är okorrelerade – har du antagit det antagandet någonstans? Varför behöver vi också få in normalfördelningen? Om vi ’ bara talar om varians så verkar det onödigt – se till exempel mitt svar här
- @Marco Eftersom jag tänker bättre på bilder och det gör allt lättare att förstå.
- @Marco Jag tror också att den här frågan började på webbplatsen (nu avstängd) stats.stackexchange. En formelvägg är mindre tillgänglig än enklare, grafiska, mindre rigorösa behandlingar.
- Jag tvivlar på att detta är korrekt. Föreställ dig två datamängder med vardera endast en mätning vardera. Deras varians för varje uppsättning är 0, men uppsättningen för båda mätningarna har en varians större än 0 om datapunkterna skiljer sig.
- @Njol, jag tror att ’ varför vi antar att alla variabler har normalfördelning. Och vi kan göra det här, för vi pratar om fasmätning. I ditt exempel fördelas inte båda variablerna normalt.
Svar
Det här är en gammal fråga men svaret accepterat faktiskt inte är korrekt eller fullständig. Användaren vill beräkna standardavvikelsen över 12-månadersdata där medel- och standardavvikelsen redan är beräknad över varje månad. Om vi antar att antalet prover i varje månad är lika är det möjligt att beräkna provets medelvärde och varians över året från varje månads data. För enkelhetens skull antar vi att vi har två uppsättningar data:
$ X = \ {x_1, …. x_N \} $
$ Y = \ {y_1, …., y_N \} $
med kända värden för exempelvärde och provvarians, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .
Nu vill vi beräkna samma uppskattningar för
$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .
Tänk på att $ \ mu_x $ , $ \ sigma ^ 2_x $ beräknas som:
$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $
$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $
För att uppskatta medelvärde och varians över den totala uppsättningen behöver vi beräkna:
$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ som anges i det accepterade svaret. För varians är dock historien annorlunda:
$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $
$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $
$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $
Så om du har variansen över varje delmängd och vill ha variansen över hela uppsättningen kan du genomsnittliga avvikelserna för varje delmängd om de alla har samma medelvärde. Annars måste du lägga till variansen för medelvärdet för varje delmängd.
Låt oss säga att under första halvan av året producerar vi exakt 1000 MWh per dag och på sekundhalvan producerar vi 2000 MWh per dag. Då medelvärdet och varianten av energiproduktion i första och sekunder halv är 1000 och 2000 för medelvärde och varians är 0 för båda halvorna. Nu finns det två olika saker som vi kan vara intresserade av:
1- Vi vill beräkna variansen av energiproduktion över hela året : sedan genom att beräkna de två varianserna når vi noll, vilket inte är korrekt eftersom energin per dag över hela året är inte konstant. I det här fallet måste vi lägga till variansen för alla medel från varje delmängd. Matematiskt i det här fallet är den slumpmässiga variabeln av intresse energiproduktion per dag. Vi har provstatistik över delmängder och vi vill beräkna provet statistik över längre tid.
2- Vi vill beräkna variansen av energiproduktion per år: Med andra ord är vi intresserade av hur mycket energiproduktion som förändras från ett år till ett annat år. I detta fall leder medelvärdet av variansen till rätt svar som är 0, eftersom vi varje år producerar exakt 1500 MHW i genomsnitt. Matematiskt i det här fallet är den slumpmässiga variabeln av intresse genomsnittet av energiproduktionen per dag där medelvärdet görs över hela året.
Kommentarer
- Snyggt svar. Enligt min mening beror det på hur du vill presentera den resulterande SD: n (och vilken hypotes du vill ta itu med denna SD, om du försöker jämföra med en annan vindpark etc.).
Svar
Jag vill återigen betona felaktigheten i en del av det accepterade svaret. Frågeställningen leder till förvirring.
Frågan har genomsnitt och StdDev för varje månad, men det är oklart vilken typ av delmängd som används. Är det genomsnittet av 1 vindkraftverk för hela gården eller det dagliga genomsnittet för hela gården? Om det är det dagliga genomsnittet för varje månad kan du inte lägga till månadsgenomsnittet för att få det årliga genomsnittet eftersom de inte har samma nämnare. Om det är enhetsgenomsnittet ska frågan ange
Vi kan säga att under det genomsnittliga året varje turbin i vindkraftverket producerar 10.358 MWh, …
I stället för
Vi kan säga att vindkraftparken under det genomsnittliga året producerar 10.358 MWh, …
Ytterligare mer, Standardavvikelsen eller variansen är jämförelsen mot uppsättningens eget genomsnitt. Den innehåller INTE någon information angående genomsnittet för dess överordnade uppsättning (den större uppsättningen som den beräknade uppsättningen är en del av).
Bilden är inte nödvändigtvis särskilt exakt, men den är förmedlar den allmänna idén. Låt oss föreställa oss produktionen av en vindkraftspark som på bilden. Som du kan se har ” lokal ” inget att göra gör med ” global ” varians, oavsett hur du lägger till eller multiplicerar dem. Om du lägger till ” lokala ” avvikelser tillsammans, det blir väldigt liten jämfört med ” global ” varians. Du kan inte förutsäga årets varians med varians 2 halvår. Så i det accepterade svaret, medan summan beräkningen är korrekt, delningen med 12 för att få månadsnumret betyder ingenting. . Av de tre sektionerna är det första och det sista avsnittet fel, det andra är rätt.
Återigen är det ”en mycket fel applikation, följ inte den annars kommer det att få dig i trubbel. Beräkna bara för det hela, med den totala årliga / månatliga produktionen för varje enhet som datapunkter beroende på om du vill ha ett årligt eller månatligt antal, det borde vara rätt svar. Du vill nog ha något liknande. Detta är mina slumpmässigt genererade siffror. Om du har data bör resultatet i cell O2 vara ditt svar.
Kommentarer
- Tack så mycket för bilden som hjälpte mig mycket att förstå varför det accepterade svaret är ofullständigt och kan ha till och med fel. Du förklarade det väldigt bra, tack!
- Detta visar risken att rösta. De som röstar är de som inte ’ inte vet svaret. I motsats till kodning är de som röstar människor som får koden att fungera, ju fler röster, desto bättre är svaret.För statistik / matematik betyder fler röster bara att det ’ är mer tilltalande.
Svar
TL; DR
Givet flera dagar, och för varje dag får vi dess medelvärde, exempel på StdDev och antal prover, betecknade som: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Vi vill beräkna medel- och provstdDev över alla dagar.
Genomsnitt är helt enkelt ett viktat genomsnitt: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$
Exempel på StdDev är den här saken: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Där prenumeration d betecknar en dag vi samlade in genomsnitt, provstdev och antal prover för.
Detaljer
Vi har haft ett liknande problem där vi hade en process som beräknar ett dagligt genomsnitt och Exempel på StdDev och sparar det tillsammans med antalet dagliga prover. Med hjälp av denna ingång var vi tvungna att beräkna ett veckovis / månadsgenomsnitt och StdDev. Antalet prover per dag var inte konstant i vårt fall.
Betecknar genomsnittet, exempel på StdDev och antal prover för hela uppsättningen som: $$ \ mu, \ \ sigma \ och \ N \ $$ Och för dagen d betecknar medelvärdet, exemplet på StdDev och antalet prover som: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Beräkning av hela uppsättningen ”Genomsnitt är helt enkelt ett vägd genomsnitt av dagarna” Genomsnitt i fråga: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Men saker är mycket mer involverade när man överväger Sample StdDev. Under en dags exempel på StdDev har vi: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Först lite sanering: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Låt oss titta på den högra sidan av ekvationen ovan. Om vi kan nå från denna summa till följande summa per dag: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ sedan summering över dagarna ger oss vad vi letar efter eftersom dagarna är ojämna och täcker hela uppsättningen: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ Insikten att få från daglig StdDev till hela uppsättningen StdDev är att märka att medan vi inte har de dagliga proverna, vi har summan av de dagliga proverna genom det dagliga genomsnittet . Med tanke på denna insikt kan vi arbeta på höger sida av ekvationen ovan: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ Vid det här tillfället gjorde vi ingenting annat än att lägga till och subtrahera termer som nollställer och håller ekvationen densamma. Nu eftersom vi summerar över N d på alla summeringar kan vi skriva summeringar för skojs skull och vinst: $$ \ kräver {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ Summationer är över j så summeringsvillkor som inte är beroende av j kan enkelt multipliceras med N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Och vi närmar oss: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Låt oss nu hantera termen längst till höger eftersom vi inte kan använda x j direkt men vi kan använda summan som vi har den dagens genomsnitt. Multiplicera och dela med N d för att få genomsnittet: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ Vid denna punkt har vi den summering som vi behöver beräkna hela uppsättningens prov StdDev och alla andra termer är kvantiteter vi känner till, nämligen dagsstatistik och antal prover.Låt oss koppla tillbaka den till saneringssteget ovan: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Vi är nu redo att beräkna uppsättningen ”s Sample StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$
Kommentarer
- Din notation är lite förvirrande för mig som det gör ’ inte klart vilket betyder & standardavvikelser är kända (antas) parametrar & vilka är uppskattningar.
- Kända är Nd, Mu-d, Sigma-d, vi måste beräkna N, Mu, Sigma. Att beräkna N och Mu är trivialt, Sigma är den involverade ..
Svar
Jag tror vad du kan vara verkligen intresserad av är dock standardfel snarare än standardavvikelsen.
Standardfelet för medelvärdet (SEM) är standarden avvikelse från provets medelvärde uppskattning av ett populationsmedelvärde, och det ger dig ett mått på hur bra din årliga MWh-uppskattning är.
Det är väldigt lätt att beräkna: om du använde $ n $ prover för att få dina månatliga MWh-medelvärden och standardavvikelser, du skulle bara beräkna standardavvikelsen som @IanBoyd föreslog och normalisera den med den totala storleken på ditt prov. Det vill säga
$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$