Ik heb een maandelijks gemiddelde voor een waarde en een standaarddeviatie die overeenkomt met dat gemiddelde. Ik bereken nu het jaargemiddelde als de som van de maandgemiddelden, hoe kan ik de standaarddeviatie voor het opgetelde gemiddelde weergeven?
Bijvoorbeeld als ik de output van een windpark beschouw:
Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250
We kunnen zeggen dat het windpark in het gemiddelde jaar 10.358 MWh produceert, maar wat is de standaarddeviatie die overeenkomt met dit cijfer?
Opmerkingen
- Een discussie naar aanleiding van een nu verwijderd antwoord wees op een mogelijke dubbelzinnigheid in deze vraag: zoekt u de SD van de maandelijkse gemiddelden of wilt u de SD terughalen van alle oorspronkelijke waarden waaruit die gemiddelden zijn opgebouwd? Dat antwoord wees er ook terecht op dat als je het laatste wilt, je het aantal waarden nodig hebt dat betrokken is bij elk van de maandelijkse gemiddelden.
- Een opmerking bij een ander verwijderd antwoord wees erop dat het vreemd is om te berekenen een gemiddelde als som : u bedoelt zeker dat u gemiddeld de maandelijkse gemiddelden neemt. Maar als u het gemiddelde wilt schatten van alle originele gegevens, dan is zon procedure meestal niet goed: een gewogen gemiddelde is nodig. En natuurlijk is het ‘ niet mogelijk om een goed antwoord te geven op uw vraag over de ” SD voor het opgetelde gemiddelde ” totdat het duidelijk is wat het ” gesommeerde gemiddelde ” is en waarvoor het bedoeld is. Geef ons hier een toelichting.
- @whuber Ik heb een voorbeeld toegevoegd om dit te verduidelijken. Wiskundig denk ik dat de som van gemiddelden gelijk is aan het maandgemiddelde maal 12.
- Ja, klonq, dat is een heel redelijk verzoek. Deze antwoorden zijn echter verwijderd door hun eigenaar, niet door de community. Om hun waarde te behouden, heb ik hier geprobeerd (mijn mening) de belangrijkste ideeën die in die antwoorden en hun opmerkingen naar voren kwamen, over te brengen. Trouwens, je recente bewerkingen zijn heel nuttig: mensen zien graag voorbeeldgegevens.
- Het middelen van de variantie en dus het berekenen van de gemiddelde standaarddeviatie kan ‘ niet de hele antwoord! Dit alles vertegenwoordigt de gemiddelde variatie in het meten van het vermogen BINNEN een enkele maand. Dit is een goed begin om een nauwkeurige meting van de meetfout te krijgen, maar ‘ hoeft deze standaarddeviatie van 232 niet op de een of andere manier te worden gecombineerd met de INTER-MAANDELIJKSE variatie in uitgangsvermogen. dwz ik denk dat de uiteindelijke resulterende standaarddeviatie voor de Grand Mean iets hoger zou moeten zijn dan 232 als je rekening houdt met de gecombineerde meetfout van zowel binnen elke maand als BET
Antwoord
Kort antwoord: u gemiddeld de varianties ; dan kun je vierkantswortel nemen om de gemiddelde standaarddeviatie te krijgen.
Voorbeeld
Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964
En dan is de gemiddelde standaarddeviatie sqrt(53,964) = 232
Van Som van normaal verdeelde willekeurige variabelen :
Als $ X $ en $ Y $ onafhankelijke willekeurige variabelen zijn die normaal verdeeld zijn (en dus ook gezamenlijk), dan wordt hun som ook normaal verdeeld
… de som van twee onafhankelijke normaal gedistribueerde willekeurige variabelen is normaal, waarbij het gemiddelde de som is van de twee gemiddelden en de variantie de som van de twee varianties
En van Wolfram Alpha “s Normale somverdeling :
Verbazingwekkend genoeg is de verdeling van een som van twee normaal verdeelde onafhankelijke variaties $ X $ en $ Y $ met gemiddelden en v arianties $ (\ mu_X, \ sigma_X ^ 2) $ en $ (\ mu_Y, \ sigma_Y ^ 2) $, is respectievelijk een andere normale verdeling
$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$
wat gemiddelde
$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$
en variantie heeft
$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$
Voor uw gegevens:
- som:
10,358 MWh
- variantie:
647,564
- standaarddeviatie:
804.71 ( sqrt(647564) )
Dus om uw vraag te beantwoorden:
- Hoe een standaarddeviatie “optellen” ?
-
Je somt ze kwadratisch op:
s = sqrt(s1^2 + s2^2 + ... + s12^2)
Conceptueel tel je de varianties op en neem vervolgens de vierkantswortel om de standaarddeviatie te krijgen.
Omdat ik nieuwsgierig was, wilde ik het gemiddelde maandelijkse gemiddelde vermogen weten, en de standaarddeviatie . Door inductie hebben we 12 normale verdelingen nodig die:
- optellen tot een gemiddelde van
10,358
- optellen tot een variantie van
647,564
Dat zijn 12 gemiddelde maandelijkse verdelingen van:
- gemiddelde van
10,358/12 = 863.16
- variantie van
647,564/12 = 53,963.6
- standaarddeviatie van
sqrt(53963.6) = 232.3
We kunnen onze gemiddelde maandelijkse verdelingen controleren door ze 12 keer op te tellen, om te zien dat ze gelijk aan de jaarlijkse verdeling:
- Gemiddelde:
863.16*12 = 10358 = 10,358
( correct ) - Variantie:
53963.6*12 = 647564 = 647,564
( correct )
Opmerking : ik “laat het over aan iemand met kennis van de esoterische Latex-wiskunde om mijn formule-afbeeldingen te converteren, en
formula code
in stackexchange geformatteerde formules.
Bewerken : ik heb de short verplaatst naar het punt, antwoord bovenaan. Omdat ik dit vandaag opnieuw moest doen, maar ik wilde controleren of ik gemiddeld de varianties .
Opmerkingen
- Dit alles lijkt aan te nemen dat de maanden niet gecorreleerd zijn – heb je die veronderstelling ergens expliciet gemaakt? En waarom moeten we de normale distributie binnenhalen? Als we ‘ het alleen over variantie hebben, dan lijkt dat niet nodig – zie bijvoorbeeld mijn antwoord hier
- @Marco Omdat ik beter denk in plaatjes en het alles gemakkelijker te begrijpen maakt.
- @Marco Ik geloof ook dat deze vraag begon op de (inmiddels opgeheven) stats.stackexchange-site. Een formulesmuur is minder toegankelijk dan eenvoudigere, grafische, minder rigoureuze behandelingen.
- Ik betwijfel of dit juist is. Stel je twee gegevenssets voor met elk slechts één meting. Hun variantie van elke set is 0, maar de set van beide metingen heeft een variantie groter dan 0 als de datapunten verschillen.
- @Njol, ik denk dat ‘ div Daarom gaan we ervan uit dat alle variabelen een normale verdeling hebben. En we kunnen het hier doen, omdat we het hebben over fysieke metingen. In uw voorbeeld zijn beide variabelen niet normaal verdeeld.
Antwoord
Dit is een oude vraag maar het antwoord is geaccepteerd is eigenlijk niet correct of volledig. De gebruiker wil de standaarddeviatie berekenen over 12-maandgegevens waarbij de gemiddelde en standaarddeviatie al over elke maand wordt berekend. Ervan uitgaande dat het aantal steekproeven in elke maand hetzelfde is, is het mogelijk om het gemiddelde van de steekproef en de variantie over het jaar te berekenen op basis van de gegevens van elke maand. Voor het gemak, neem aan dat we twee sets gegevens hebben:
$ X = \ {x_1, …. x_N \} $
$ Y = \ {y_1, …., y_N \} $
met bekende waarden van steekproefgemiddelde en steekproefvariantie, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .
Nu willen we dezelfde schattingen berekenen voor
$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .
Bedenk dat $ \ mu_x $ , $ \ sigma ^ 2_x $ worden berekend als:
$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $
$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $
Om gemiddelde en variantie over de totale reeks te schatten, moeten we berekenen:
$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ die wordt gegeven in het geaccepteerde antwoord. Voor variantie is het verhaal echter anders:
$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $
$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ som ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ som ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $
$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $
Dus als je de variantie over elke subset hebt en je wilt de variantie over de hele set, dan kun je het gemiddelde nemen van de varianties van elke subset als ze allemaal hetzelfde gemiddelde hebben. Anders moet u de variantie van het gemiddelde van elke subset optellen.
Laten we zeggen dat we in de eerste helft van het jaar precies 1000 MWh per dag produceren en in de tweede helft 2000 MWh per dag. Dan het gemiddelde en de variantie van de energieproductie in de eerste en secondenhelft is 1000 en 2000 voor gemiddelde en variantie is 0 voor beide helften. Nu zijn er twee verschillende dingen waarin we mogelijk geïnteresseerd zijn:
1- We willen de variantie van de energieproductie over het hele jaar berekenen : door de twee variantie te middelen komen we uit op nul, wat niet correct is aangezien de energie per dag over het geheel jaar is niet constant. In dit geval moeten we de variantie van alle gemiddelden van elke subset optellen. Wiskundig gezien is in dit geval de willekeurige variabele van belang de energieproductie per dag. We hebben steekproefstatistieken over subsets en we willen de steekproef statistieken over een langere tijd.
2- We willen de variantie van de energieproductie per jaar berekenen: Met andere woorden, we zijn geïnteresseerd in hoeveel energieproductie van het ene jaar naar het andere verandert. In dit geval leidt het middelen van de variantie tot het juiste antwoord, namelijk 0, aangezien we elk jaar gemiddeld precies 1500 MHW produceren. Wiskundig is in dit geval de willekeurige variabele van belang het gemiddelde van de energieproductie per dag, waarbij het gemiddelde wordt gedaan over het hele jaar.
Reacties
- Goed antwoord. Hoe je het moet berekenen, hangt naar mijn mening af van hoe je de resulterende SD wilt presenteren (en welke hypothese je wilt aanpakken met deze SD, als je probeert te vergelijken met een ander windpark enz.).
Antwoord
Ik “wil nogmaals de onjuistheid benadrukken in een deel van het geaccepteerde antwoord. De bewoording van de vraag leidt tot verwarring.
De vraag heeft het gemiddelde en de standaardwaarde van elke maand, maar het is onduidelijk wat voor soort subset wordt gebruikt. Is het het gemiddelde van 1 windturbine van het hele park of het daggemiddelde van het hele park? Als het het daggemiddelde voor elke maand is, kunt u het maandgemiddelde niet optellen om het jaargemiddelde te krijgen, omdat ze niet dezelfde noemer hebben. Als dit het eenheidgemiddelde is, moet de vraag aangeven:
We kunnen zeggen dat in het gemiddelde jaar elke turbine in het windpark produceert 10.358 MWh, …
In plaats van
We kunnen zeggen dat het windpark in het gemiddelde jaar 10.358 MWh produceert, …
Verder, De standaarddeviatie of variantie is de vergelijking met het eigen gemiddelde van de set. Het bevat GEEN informatie over het gemiddelde van de bovenliggende set (de grotere set waarvan de berekende set een onderdeel is).
De afbeelding is niet per se erg nauwkeurig, maar brengt het algemene idee over. Laten we ons de output van één windpark voorstellen zoals in de afbeelding. Zoals u kunt zien, heeft de ” lokale ” variantie niets doen met de ” globale ” variantie, ongeacht hoe u deze optelt of vermenigvuldigt. Als u de ” lokale ” varianties samen, het zal erg klein zijn in vergelijking met de ” globale ” variantie. Je kunt de variantie van het jaar niet voorspellen met een variantie van 2 halfjaar. Dus in het geaccepteerde antwoord, terwijl de somberekening juist is, de deling door 12 om het maandnummer te krijgen, betekent niets. . Van de drie secties zijn de eerste en laatste secties verkeerd, de tweede is juist.
Nogmaals, het “is een zeer verkeerde applicatie, volg deze alstublieft niet, anders krijgt u problemen. Reken gewoon voor het hele ding, gebruik de totale jaarlijkse / maandelijkse output van elke eenheid als gegevenspunten, afhankelijk van of u een jaarlijks of maandelijks aantal wilt, dat zou het juiste antwoord moeten zijn. U wilt waarschijnlijk zoiets als dit. Dit zijn mijn willekeurig gegenereerde nummers. Als u de gegevens heeft, zou het resultaat in cel O2 uw antwoord moeten zijn.
Opmerkingen
- Hartelijk dank voor de afbeelding die me veel heeft geholpen te begrijpen waarom het geaccepteerde antwoord onvolledig is en zelfs fout zijn. Je hebt het heel goed uitgelegd, bedankt!
- Dit toont het gevaar van stemmen aan. De mensen die stemmen zijn de mensen die het antwoord niet ‘ weten. In tegenstelling tot codering, zijn de mensen die stemmen mensen die de code laten werken, hoe meer stemmen, hoe beter het antwoord.Voor statistiek / wiskunde betekent meer stemmen alleen dat het ‘ aantrekkelijker is.
Antwoord
TL; DR
Gegeven meerdere dagen, en voor elke dag krijgen we het gemiddelde, Sample StdDev en het aantal samples, aangeduid als: $$ \ mu_d, \ \ sigma_d, \ N_d $$ We willen graag het gemiddelde en het voorbeeld van StdDev voor alle dagen berekenen.
Het gemiddelde is gewoon een gewogen gemiddelde: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$
Voorbeeld StdDev is dit ding: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ waarbij subscript d geeft een dag aan dat we Gemiddelde, Sample StdDev en het aantal samples voor hebben verzameld.
Details
We hebben een soortgelijk probleem gehad waarbij we een proces hadden dat een dagelijks gemiddelde berekent en Sample StdDev en slaat het naast het aantal dagelijkse monsters. Met behulp van deze invoer moesten we een wekelijks / maandelijks gemiddelde en een StdDev berekenen. Het aantal monsters per dag was in ons geval niet constant.
Geef het gemiddelde aan, Sample StdDev en aantal voorbeelden van de hele set als: $$ \ mu, \ \ sigma \ en \ N \ $$ En voor dag d duiden het gemiddelde, de voorbeeldstandaard en het aantal voorbeelden aan als: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Het berekenen van het gemiddelde van de hele set is gewoon een gewogen gemiddelde van de dagen “Betreffende gemiddelden: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Maar er komt veel meer kijken bij het overwegen van Sample StdDev. Voor een Sample StdDev van een dag hebben we: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Eerst wat opruimen: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Laten we eens kijken naar de term aan de rechterkant van de bovenstaande vergelijking. Als we van deze som de volgende som per dag kunnen bereiken: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ dan sommatie over de dagen zullen ons geven wat we zoeken, aangezien de dagen onsamenhangend zijn en de hele reeks beslaan: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ Het inzicht dat je kunt krijgen van de dagelijkse StdDev naar de StdDev van de hele set is om op te merken dat hoewel we hebben de dagelijkse steekproeven, we hebben de som van de dagelijkse steekproeven tot en met het dagelijkse gemiddelde . Laten we met dit inzicht aan de rechterkant van de bovenstaande vergelijking werken: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ Op dit punt hebben we niets anders gedaan dan termen op te tellen en af te trekken die de vergelijking gelijk houden. Nu we N d optellen bij alle sommaties, laten we de sommaties voor de lol en winst: $$ \ vereist {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ annuleren {\ mu_d} + \ mu- \ annuleren { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ Sommaties zijn meer dan j dus sommatietermen die niet afhankelijk zijn van j kunnen eenvoudig worden vermenigvuldigd met N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ En we komen in de buurt: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Laten we nu de meest rechtse term behandelen, aangezien we x j niet kunnen gebruiken rechtstreeks, maar we kunnen de som ervan gebruiken zoals we het gemiddelde van die dag hebben. Vermenigvuldig en deel door N d om het gemiddelde te krijgen: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ Op dit punt hebben we de som die we moeten berekenen de Sample StdDev van de hele set en alle andere termen zijn hoeveelheden die we kennen, namelijk dagstatistieken en het aantal samples.Laten we teruggaan naar de bovenstaande opschoningsstap: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ We zijn nu klaar om de Sample StdDev van de set te berekenen: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$
Reacties
- Je notatie is een beetje verwarrend voor mij, omdat het maakt niet ‘ duidelijk welke middelen & standaarddeviaties bekende (veronderstelde) parameters zijn & die steekproefschattingen zijn.
- Bekend zijn Nd, Mu-d, Sigma-d, we moeten N, Mu, Sigma berekenen. Het berekenen van N en Mu is triviaal, Sigma is de betrokkene.
Antwoord
Ik geloof wat je mag echt geïnteresseerd zijn in de standaardfout in plaats van de standaarddeviatie.
De standaardfout van het gemiddelde (SEM) is de standaard afwijking van de schatting van het steekproefgemiddelde van een populatiegemiddelde, en dat geeft u een maatstaf voor hoe goed uw jaarlijkse MWh-schatting is.
Het is heel eenvoudig te berekenen: als u $ n $ samples om uw maandelijkse MWh-gemiddelden en standaarddeviaties te verkrijgen, zou u gewoon de standaarddeviatie berekenen zoals @IanBoyd suggereerde en deze normaliseren op basis van de totale grootte van uw steekproef. Dat wil zeggen:
$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ keer n}} $$