Hvordan ' sum ' et standardavvik?

Question

Jeg har et månedlig gjennomsnitt for en verdi og et standardavvik som tilsvarer det gjennomsnittet. Jeg beregner nå det årlige gjennomsnittet som summen av månedlige gjennomsnitt, hvordan kan jeg representere standardavviket for det summerte gjennomsnittet?

For eksempel med tanke på produksjon fra en vindpark:

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250

Vi kan si at vindparken produserer i gjennomsnitt 10.358 MWh, men hva tilsvarer standardavviket til dette tallet?

Kommentarer

En diskusjon etter et nå-slettet svar bemerket en mulig tvetydighet i dette spørsmålet: søker du SD for månedlige gjennomsnitt eller vil du gjenopprette SD av alle de opprinnelige verdiene som gjennomsnittene ble konstruert av? Svaret påpekte også riktig at hvis du vil ha sistnevnte, vil du trenge antall verdier som er involvert i hvert av de månedlige gjennomsnittene.
En kommentar til et annet slettet svar påpekte at det er rart å beregne et gjennomsnitt som en sum : du mener sikkert at du gjennomsnittet av de månedlige gjennomsnittene. Men hvis det du ønsker er å estimere gjennomsnittet av alle originaldataene, er en slik prosedyre vanligvis ikke god: det er behov for et vektet gjennomsnitt. Og selvfølgelig er det ‘ ikke mulig å gi et godt svar på spørsmålet ditt om » SD for det summerte gjennomsnittet » til det er klart hva » oppsummerte gjennomsnitt » og hva det er ment å representere. Forklar det for oss.
@whuber Jeg har lagt til et eksempel for å avklare. Matematisk tror jeg at summen av gjennomsnitt er lik den månedlige gjennomsnittstiden 12.
Ja, klonq, det er en veldig rimelig forespørsel. Disse svarene ble imidlertid slettet av eieren, ikke av fellesskapet. For å bevare verdien deres, har jeg her forsøkt å videreformidle (mitt innlegg) de viktigste ideene som oppstår i svarene og deres kommentarer. BTW, de siste endringene dine er ganske nyttige: folk liker å se eksempler på data.
Gjennomsnittlig avvik og dermed beregning av gjennomsnittlig standardavvik kan ‘ ikke være hele svaret! Alt dette representerer er den gjennomsnittlige variansen i å måle kraftuttak INNEN en enkelt måned. Dette er en god start på å få en nøyaktig måling på målefeil, men trenger ikke ‘ t dette standardavviket på 232 på noen måte å kombineres med den MÅNEDLIGE variasjonen i effekt. dvs. jeg tror at det endelige resulterende standardavviket for Grand Mean bør være litt høyere enn 232 hvis du tar høyde for den kombinerte feilen i måling av begge i løpet av hver måned, så vel som BET

Answer 1

Kort svar: Du gjennomsnittlig avvik ; så kan du ta kvadratrot for å få gjennomsnittet standardavvik .

Eksempel

Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964

Og så er gjennomsnittet standardavvik sqrt(53,964) = 232

Fra Summen av normalt distribuerte tilfeldige variabler :

Hvis $ X $ og $ Y $ er uavhengige tilfeldige variabler som er normalt distribuert (og derfor også i fellesskap), så blir summen også normalt fordelt

… summen av to uavhengige normalt distribuerte tilfeldige variabler er normalt, med gjennomsnittet som summen av de to midlene, og dens varians er summen av de to variansene

Og fra Wolfram Alpha «s Normal sumfordeling :

Utrolig nok er fordelingen av en sum på to normalt distribuerte uavhengige variasjoner $ X $ og $ Y $ med middel og v arianser $ (\ mu_X, \ sigma_X ^ 2) $ henholdsvis $ (\ mu_Y, \ sigma_Y ^ 2) $ er en annen normalfordeling

$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

som har gjennomsnitt

$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

og varians

$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

For dataene dine:

sum: 10,358 MWh
varians: 647,564
standardavvik: 804.71 ( sqrt(647564) )

skriv inn bildebeskrivelse her

Så for å svare på spørsmålet ditt:

Hvordan «summerer» jeg et standardavvik ?
Du summerer dem kvadratisk:
```
s = sqrt(s1^2 + s2^2 + ... + s12^2) 
```

Konseptuelt summerer du avvikene , ta deretter kvadratroten for å få standardavviket.

Fordi jeg var nysgjerrig, ville jeg vite gjennomsnittlig månedlig betyr kraft, og dens standardavvik . Gjennom induksjon trenger vi 12 normale fordelinger som:

summerer til et gjennomsnitt på 10,358
sum til en varians på 647,564

Det vil være 12 gjennomsnittlige månedlige fordelinger av:

gjennomsnitt av 10,358/12 = 863.16
varians av 647,564/12 = 53,963.6
standardavvik på sqrt(53963.6) = 232.3

skriv inn bildebeskrivelse her

Vi kan sjekke våre månedlige gjennomsnittlige distribusjoner ved å legge dem opp 12 ganger, for å se at de tilsvarer den årlige fordelingen:

Gjennomsnitt: 863.16*12 = 10358 = 10,358 ( korrekt )
Variasjon: 53963.6*12 = 647564 = 647,564 ( rett )

Merk : i «overlater det til noen med kunnskap om den esoteriske Latex-matematikken å konvertere formelbildene mine, og formula code i stackexchange formaterte formler.

Rediger : Jeg flyttet den korte, til poenget, svar opp øverst. Fordi jeg trengte å gjøre dette igjen i dag, men ønsket å dobbeltsjekke at jeg gjennomsnitt avvikene .

Kommentarer

Alt ser ut til å anta at månedene ikke er korrelert – har du gjort den antagelsen eksplisitt hvor som helst? Også, hvorfor trenger vi å få inn normalfordelingen? Hvis vi ‘ bare snakker om varians, så virker det unødvendig – se for eksempel svaret mitt her
@Marco Fordi jeg tenker bedre på bilder og det gjør alt lettere å forstå.
@Marco Jeg tror også at dette spørsmålet startet på (nå nedlagte) stats.stackexchange-nettstedet. En formelvegg er mindre tilgjengelig enn enklere, grafiske, mindre strenge behandlinger.
Jeg tviler på at dette er riktig. Tenk deg to datasett med hver kun en enkelt måling hver. Deres varians for hvert sett er 0, men settet for begge målingene har en varians større enn 0 hvis datapunktene er forskjellige.
@Njol, jeg tror at ‘ hvorfor vi antar at alle variabler har normalfordeling. Og vi kan gjøre det her, fordi vi snakker om phisical måling. I eksempelet ditt fordeles ikke begge variablene normalt.

Answer 2

Dette er et gammelt spørsmål, men svaret akseptert er faktisk ikke riktig eller fullstendig. Brukeren ønsker å beregne standardavviket over 12 måneders data der gjennomsnitt og standardavvik allerede er beregnet over hver måned. Forutsatt at antall prøver i hver måned er det samme, er det mulig å beregne prøvenes gjennomsnitt og varians over året fra hver måneds data. For enkelhets skyld antar vi at vi har to datasett:

$ X = \ {x_1, …. x_N \} $

$ Y = \ {y_1, …., y_N \} $

med kjente verdier for eksempelgjennomsnitt og prøvevarians, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .

Nå vil vi beregne de samme estimatene for

$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .

Tenk på at $ \ mu_x $ , $ \ sigma ^ 2_x $ beregnes som:

$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $

For å estimere gjennomsnitt og varians over det totale settet må vi beregne:

$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ som er gitt i det aksepterte svaret. For varians er historien imidlertid annerledes:

$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $

$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $

$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $

Så hvis du har variansen over hvert delmengde og du vil ha variansen over hele settet, kan du gjennomsnittlig variasjonene for hvert delmengde hvis de alle har samme gjennomsnitt. Ellers må du legge til variansen av gjennomsnittet for hver delmengde.

La oss si at vi i løpet av første halvdel av året produserer nøyaktig 1000 MWh per dag, og i sekunder halvparten produserer vi 2000 MWh per dag. Da betyr gjennomsnittet og variansen av energiproduksjon i første og sekunder halvdel er 1000 og 2000 for gjennomsnitt og varians er 0 for begge halvdeler. Nå er det to forskjellige ting som vi kan være interessert i:

1- Vi ønsker å beregne variansen av energiproduksjon over hele året : deretter ved å gjennomsnittliggjøre de to variansene, kommer vi til null, noe som ikke er riktig siden energien per dag over hele året er ikke konstant. I dette tilfellet må vi legge til variansen til alle midlene fra hver delmengde. Matematisk sett, i dette tilfellet er den tilfeldige variabelen av interesse energiproduksjon per dag. statistikk over lengre tid.

2- Vi ønsker å beregne variansen av energiproduksjon per år: Med andre ord er vi interessert i hvor mye energiproduksjon som endres fra ett år til et annet år. I dette tilfellet fører gjennomsnittlig avvik til riktig svar som er 0, siden vi hvert år produserer nøyaktig 1500 MHW i gjennomsnitt. Matematisk i dette tilfellet er den tilfeldige variabelen av interesse gjennomsnittet av energiproduksjonen per dag der gjennomsnittet gjøres over hele året.

Kommentarer

Fint svar. Etter min mening avhenger hvordan du beregner det, hvordan du vil presentere den resulterende SD-en (og hvilken hypotese du vil adressere ved hjelp av denne SD-en, hvis du prøver å sammenligne med en annen vindpark osv.).

Answer 3

Jeg vil igjen understreke feilen i en del av det aksepterte svaret. Ordlyden i spørsmålet fører til forvirring.

Spørsmålet har gjennomsnitt og StdDev for hver måned, men det er uklart hva slags delmengde som brukes. Er det gjennomsnittet av 1 vindturbin for hele gården eller det daglige gjennomsnittet av hele gården? Hvis det er det daglige gjennomsnittet for hver måned, kan du ikke legge opp det månedlige gjennomsnittet for å få det årlige gjennomsnittet fordi de ikke har samme nevner. Hvis det er enhetsgjennomsnittet, bør spørsmålet angi

Vi kan si at i gjennomsnittsåret hver turbin i vindparken produserer 10.358 MWh, …

I stedet for

Vi kan si at vindparken i gjennomsnitt produserer 10.358 MWh, …

Videre, Standardavviket eller avviket er sammenligningen mot settets eget gjennomsnitt. Den inneholder IKKE noen informasjon om gjennomsnittet for foreldresettet (det større settet som det beregnede settet er en komponent i).

Bildet er ikke nødvendigvis veldig presist, men det formidler den generelle ideen. La oss forestille oss utgangen fra en vindpark som på bildet. Som du ser, har » lokal » avvik ikke noe å gjør med » global » avvik, uansett hvordan du legger til eller multipliserer disse. Hvis du legger til » lokale » avvik sammen, det vil være veldig lite sammenlignet med » global » varians. Du kan ikke forutsi årets varians ved hjelp av varians 2 halvår. Så, i det aksepterte svaret, mens sumberegningen er riktig, divisjonen etter 12 for å få månedstallet betyr ingenting. . Av de tre seksjonene er den første og siste seksjonen feil, den andre er riktig.

Igjen, det «en veldig feil applikasjon. Ikke følg den, ellers vil det få deg til problemer. Bare beregne for det hele, ved å bruke total årlig / månedlig produksjon av hver enhet som datapunkter, avhengig av om du vil ha årlig eller månedlig nummer, det skal være riktig svar. Du vil sannsynligvis ha noe slikt. Dette er mine tilfeldig genererte tall. Hvis du har dataene, skal resultatet i celle O2 være ditt svar.

Kommentarer

Tusen takk for bildet som hjalp meg mye å forstå hvorfor det aksepterte svaret er ufullstendig og kan være til og med feil. Du forklarte det veldig bra, takk!
Dette viser faren ved å stemme. Folket som stemmer, er menneskene som ikke ‘ ikke vet svaret. I motsetning til koding er folket som stemmer folk som får koden til å fungere, jo flere stemmer, jo bedre er svaret.For statistikk / matematikk betyr flere stemmer bare at det ‘ er mer tiltalende.

Answer 4

Jeg tror hva du kan vær veldig interessert i, men er standardfeilen i stedet for standardavviket.

Standardfeilen til gjennomsnittet (SEM) er standarden avvik fra gjennomsnittet av utvalget av et populasjonsmiddel, og det vil gi deg et mål på hvor godt ditt årlige MWh-estimat er.

Det er veldig enkelt å beregne: hvis du brukte $ n $ prøver for å oppnå dine månedlige MWh-gjennomsnitt og standardavvik, du vil bare beregne standardavviket som @IanBoyd foreslo og normalisere det etter den totale størrelsen på prøven. Det vil si,
$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$

Hvordan ' sum ' et standardavvik?

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

TL; DR

Detaljer

Kommentarer

Svar

Legg igjen en kommentar Avbryt svar