Hvordan ' sum ' et standardavvik?

Jeg har et månedlig gjennomsnitt for en verdi og et standardavvik som tilsvarer det gjennomsnittet. Jeg beregner nå det årlige gjennomsnittet som summen av månedlige gjennomsnitt, hvordan kan jeg representere standardavviket for det summerte gjennomsnittet?

For eksempel med tanke på produksjon fra en vindpark:

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 

Vi kan si at vindparken produserer i gjennomsnitt 10.358 MWh, men hva tilsvarer standardavviket til dette tallet?

Kommentarer

  • En diskusjon etter et nå-slettet svar bemerket en mulig tvetydighet i dette spørsmålet: søker du SD for månedlige gjennomsnitt eller vil du gjenopprette SD av alle de opprinnelige verdiene som gjennomsnittene ble konstruert av? Svaret påpekte også riktig at hvis du vil ha sistnevnte, vil du trenge antall verdier som er involvert i hvert av de månedlige gjennomsnittene.
  • En kommentar til et annet slettet svar påpekte at det er rart å beregne et gjennomsnitt som en sum : du mener sikkert at du gjennomsnittet av de månedlige gjennomsnittene. Men hvis det du ønsker er å estimere gjennomsnittet av alle originaldataene, er en slik prosedyre vanligvis ikke god: det er behov for et vektet gjennomsnitt. Og selvfølgelig er det ‘ ikke mulig å gi et godt svar på spørsmålet ditt om » SD for det summerte gjennomsnittet » til det er klart hva » oppsummerte gjennomsnitt » og hva det er ment å representere. Forklar det for oss.
  • @whuber Jeg har lagt til et eksempel for å avklare. Matematisk tror jeg at summen av gjennomsnitt er lik den månedlige gjennomsnittstiden 12.
  • Ja, klonq, det er en veldig rimelig forespørsel. Disse svarene ble imidlertid slettet av eieren, ikke av fellesskapet. For å bevare verdien deres, har jeg her forsøkt å videreformidle (mitt innlegg) de viktigste ideene som oppstår i svarene og deres kommentarer. BTW, de siste endringene dine er ganske nyttige: folk liker å se eksempler på data.
  • Gjennomsnittlig avvik og dermed beregning av gjennomsnittlig standardavvik kan ‘ ikke være hele svaret! Alt dette representerer er den gjennomsnittlige variansen i å måle kraftuttak INNEN en enkelt måned. Dette er en god start på å få en nøyaktig måling på målefeil, men trenger ikke ‘ t dette standardavviket på 232 på noen måte å kombineres med den MÅNEDLIGE variasjonen i effekt. dvs. jeg tror at det endelige resulterende standardavviket for Grand Mean bør være litt høyere enn 232 hvis du tar høyde for den kombinerte feilen i måling av begge i løpet av hver måned, så vel som BET

Svar

Kort svar: Du gjennomsnittlig avvik ; så kan du ta kvadratrot for å få gjennomsnittet standardavvik .


Eksempel

Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964 

Og så er gjennomsnittet standardavvik sqrt(53,964) = 232


Fra Summen av normalt distribuerte tilfeldige variabler :

Hvis $ X $ og $ Y $ er uavhengige tilfeldige variabler som er normalt distribuert (og derfor også i fellesskap), så blir summen også normalt fordelt

… summen av to uavhengige normalt distribuerte tilfeldige variabler er normalt, med gjennomsnittet som summen av de to midlene, og dens varians er summen av de to variansene

Og fra Wolfram Alpha «s Normal sumfordeling :

Utrolig nok er fordelingen av en sum på to normalt distribuerte uavhengige variasjoner $ X $ og $ Y $ med middel og v arianser $ (\ mu_X, \ sigma_X ^ 2) $ henholdsvis $ (\ mu_Y, \ sigma_Y ^ 2) $ er en annen normalfordeling

$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

som har gjennomsnitt

$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

og varians

$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

For dataene dine:

  • sum: 10,358 MWh
  • varians: 647,564
  • standardavvik: 804.71 ( sqrt(647564) )

skriv inn bildebeskrivelse her

Så for å svare på spørsmålet ditt:

  • Hvordan «summerer» jeg et standardavvik ?
  • Du summerer dem kvadratisk:

    s = sqrt(s1^2 + s2^2 + ... + s12^2) 

Konseptuelt summerer du avvikene , ta deretter kvadratroten for å få standardavviket.


Fordi jeg var nysgjerrig, ville jeg vite gjennomsnittlig månedlig betyr kraft, og dens standardavvik . Gjennom induksjon trenger vi 12 normale fordelinger som:

  • summerer til et gjennomsnitt på 10,358
  • sum til en varians på 647,564

Det vil være 12 gjennomsnittlige månedlige fordelinger av:

  • gjennomsnitt av 10,358/12 = 863.16
  • varians av 647,564/12 = 53,963.6
  • standardavvik på sqrt(53963.6) = 232.3

skriv inn bildebeskrivelse her

Vi kan sjekke våre månedlige gjennomsnittlige distribusjoner ved å legge dem opp 12 ganger, for å se at de tilsvarer den årlige fordelingen:

  • Gjennomsnitt: 863.16*12 = 10358 = 10,358 ( korrekt )
  • Variasjon: 53963.6*12 = 647564 = 647,564 ( rett )

Merk : i «overlater det til noen med kunnskap om den esoteriske Latex-matematikken å konvertere formelbildene mine, og formula code i stackexchange formaterte formler.

Rediger : Jeg flyttet den korte, til poenget, svar opp øverst. Fordi jeg trengte å gjøre dette igjen i dag, men ønsket å dobbeltsjekke at jeg gjennomsnitt avvikene .

Kommentarer

  • Alt ser ut til å anta at månedene ikke er korrelert – har du gjort den antagelsen eksplisitt hvor som helst? Også, hvorfor trenger vi å få inn normalfordelingen? Hvis vi ‘ bare snakker om varians, så virker det unødvendig – se for eksempel svaret mitt her
  • @Marco Fordi jeg tenker bedre på bilder og det gjør alt lettere å forstå.
  • @Marco Jeg tror også at dette spørsmålet startet på (nå nedlagte) stats.stackexchange-nettstedet. En formelvegg er mindre tilgjengelig enn enklere, grafiske, mindre strenge behandlinger.
  • Jeg tviler på at dette er riktig. Tenk deg to datasett med hver kun en enkelt måling hver. Deres varians for hvert sett er 0, men settet for begge målingene har en varians større enn 0 hvis datapunktene er forskjellige.
  • @Njol, jeg tror at ‘ hvorfor vi antar at alle variabler har normalfordeling. Og vi kan gjøre det her, fordi vi snakker om phisical måling. I eksempelet ditt fordeles ikke begge variablene normalt.

Svar

Dette er et gammelt spørsmål, men svaret akseptert er faktisk ikke riktig eller fullstendig. Brukeren ønsker å beregne standardavviket over 12 måneders data der gjennomsnitt og standardavvik allerede er beregnet over hver måned. Forutsatt at antall prøver i hver måned er det samme, er det mulig å beregne prøvenes gjennomsnitt og varians over året fra hver måneds data. For enkelhets skyld antar vi at vi har to datasett:

$ X = \ {x_1, …. x_N \} $

$ Y = \ {y_1, …., y_N \} $

med kjente verdier for eksempelgjennomsnitt og prøvevarians, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .

Nå vil vi beregne de samme estimatene for

$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .

Tenk på at $ \ mu_x $ , $ \ sigma ^ 2_x $ beregnes som:

$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $

For å estimere gjennomsnitt og varians over det totale settet må vi beregne:

$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ som er gitt i det aksepterte svaret. For varians er historien imidlertid annerledes:

$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $

$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $

$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $

Så hvis du har variansen over hvert delmengde og du vil ha variansen over hele settet, kan du gjennomsnittlig variasjonene for hvert delmengde hvis de alle har samme gjennomsnitt. Ellers må du legge til variansen av gjennomsnittet for hver delmengde.

La oss si at vi i løpet av første halvdel av året produserer nøyaktig 1000 MWh per dag, og i sekunder halvparten produserer vi 2000 MWh per dag. Da betyr gjennomsnittet og variansen av energiproduksjon i første og sekunder halvdel er 1000 og 2000 for gjennomsnitt og varians er 0 for begge halvdeler. Nå er det to forskjellige ting som vi kan være interessert i:

1- Vi ønsker å beregne variansen av energiproduksjon over hele året : deretter ved å gjennomsnittliggjøre de to variansene, kommer vi til null, noe som ikke er riktig siden energien per dag over hele året er ikke konstant. I dette tilfellet må vi legge til variansen til alle midlene fra hver delmengde. Matematisk sett, i dette tilfellet er den tilfeldige variabelen av interesse energiproduksjon per dag. statistikk over lengre tid.

2- Vi ønsker å beregne variansen av energiproduksjon per år: Med andre ord er vi interessert i hvor mye energiproduksjon som endres fra ett år til et annet år. I dette tilfellet fører gjennomsnittlig avvik til riktig svar som er 0, siden vi hvert år produserer nøyaktig 1500 MHW i gjennomsnitt. Matematisk i dette tilfellet er den tilfeldige variabelen av interesse gjennomsnittet av energiproduksjonen per dag der gjennomsnittet gjøres over hele året.

Kommentarer

  • Fint svar. Etter min mening avhenger hvordan du beregner det, hvordan du vil presentere den resulterende SD-en (og hvilken hypotese du vil adressere ved hjelp av denne SD-en, hvis du prøver å sammenligne med en annen vindpark osv.).

Svar

Jeg vil igjen understreke feilen i en del av det aksepterte svaret. Ordlyden i spørsmålet fører til forvirring.

Spørsmålet har gjennomsnitt og StdDev for hver måned, men det er uklart hva slags delmengde som brukes. Er det gjennomsnittet av 1 vindturbin for hele gården eller det daglige gjennomsnittet av hele gården? Hvis det er det daglige gjennomsnittet for hver måned, kan du ikke legge opp det månedlige gjennomsnittet for å få det årlige gjennomsnittet fordi de ikke har samme nevner. Hvis det er enhetsgjennomsnittet, bør spørsmålet angi

Vi kan si at i gjennomsnittsåret hver turbin i vindparken produserer 10.358 MWh, …

I stedet for

Vi kan si at vindparken i gjennomsnitt produserer 10.358 MWh, …

Videre, Standardavviket eller avviket er sammenligningen mot settets eget gjennomsnitt. Den inneholder IKKE noen informasjon om gjennomsnittet for foreldresettet (det større settet som det beregnede settet er en komponent i).

Variansvisualisering

Bildet er ikke nødvendigvis veldig presist, men det formidler den generelle ideen. La oss forestille oss utgangen fra en vindpark som på bildet. Som du ser, har » lokal » avvik ikke noe å gjør med » global » avvik, uansett hvordan du legger til eller multipliserer disse. Hvis du legger til » lokale » avvik sammen, det vil være veldig lite sammenlignet med » global » varians. Du kan ikke forutsi årets varians ved hjelp av varians 2 halvår. Så, i det aksepterte svaret, mens sumberegningen er riktig, divisjonen etter 12 for å få månedstallet betyr ingenting. . Av de tre seksjonene er den første og siste seksjonen feil, den andre er riktig.

Igjen, det «en veldig feil applikasjon. Ikke følg den, ellers vil det få deg til problemer. Bare beregne for det hele, ved å bruke total årlig / månedlig produksjon av hver enhet som datapunkter, avhengig av om du vil ha årlig eller månedlig nummer, det skal være riktig svar. Du vil sannsynligvis ha noe slikt. Dette er mine tilfeldig genererte tall. Hvis du har dataene, skal resultatet i celle O2 være ditt svar.

skriv inn bildebeskrivelse her

Kommentarer

  • Tusen takk for bildet som hjalp meg mye å forstå hvorfor det aksepterte svaret er ufullstendig og kan være til og med feil. Du forklarte det veldig bra, takk!
  • Dette viser faren ved å stemme. Folket som stemmer, er menneskene som ikke ‘ ikke vet svaret. I motsetning til koding er folket som stemmer folk som får koden til å fungere, jo flere stemmer, jo bedre er svaret.For statistikk / matematikk betyr flere stemmer bare at det ‘ er mer tiltalende.

Svar

TL; DR

Gitt flere dager, og for hver dag får vi gjennomsnittet, eksemplet på StdDev og antall prøver, betegnet som: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Vi vil beregne gjennomsnitts- og prøve StdDev over alle dager.

Gjennomsnitt er ganske enkelt et vektet gjennomsnitt: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$

Eksempel på StdDev er denne tingen: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Hvor abonnement d betegner en dag vi samlet gjennomsnittsprøve, StdDev og antall prøver for.

Detaljer

Vi har hatt et lignende problem der vi hadde en prosess som beregner et daglig gjennomsnitt og Eksempel på StdDev og lagrer den sammen med antall daglige prøver. Ved å bruke denne inngangen måtte vi beregne et ukentlig / månedlig gjennomsnitt og StdDev. Antall prøver per dag var ikke konstant i vårt tilfelle.

Angi gjennomsnittet, prøven StdDev og antall prøver av hele settet som: $$ \ mu, \ \ sigma \ and \ N \ $$ Og for dagen d betegner gjennomsnittet, prøven StdDev og antall prøver som: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Å beregne hele settet «Gjennomsnitt er bare et vektet gjennomsnitt av dagene» Gjennomsnitt: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Men ting er mye mer involvert når vi vurderer Sample StdDev. For en dags prøve StdDev har vi: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Først litt opprydding: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ La oss se på begrepet til høyre i ligningen ovenfor. Hvis vi kan nå fra denne summen til følgende sum per dag: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ så summering over dagene vil gi oss det vi leter etter da dagene er usammenhengende og dekker hele settet: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ Innsikten for å komme fra daglig StdDev til hele settets StdDev er å legge merke til at mens vi ikke har de daglige prøvene, vi har summen av de daglige prøvene gjennom det daglige gjennomsnittet . Gitt denne innsikten, la oss jobbe på høyre side av ligningen ovenfor: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ På dette tidspunktet gjorde vi ingenting annet enn å legge til og trekke vilkår som vil nullstille og holde ligningen den samme. Nå som vi summerer over N d på alle summasjoner, la oss omskrive summasjoner for moro skyld og fortjeneste: $$ \ require {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ Summasjonene er over j så summeringsbetingelser som ikke er avhengige av j, kan bare multipliseres med N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Og vi nærmer oss: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ La oss nå håndtere ordet lengst til høyre så vi ikke kan bruke x j direkte, men vi kan bruke summen slik vi har den dagens gjennomsnitt. Bare multipliser og del med N d for å få gjennomsnittet: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ På dette punktet har vi summeringen vi trenger å beregne hele settets prøve StdDev og alle de andre begrepene er mengder vi kjenner, nemlig dagsstatistikk og antall prøver.La oss koble den til oppryddingstrinnet ovenfor: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Vi er nå klar til å beregne settet «s Sample StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$

Kommentarer

  • Notasjonen din er litt forvirrende for meg som det gjør ikke ‘ t klart som betyr & standardavvik er kjente (antatt) parametere & som er eksempler på estimater.
  • Kjente er Nd, Mu-d, Sigma-d, vi må beregne N, Mu, Sigma. Å beregne N og Mu er trivielt, Sigma er den involverte ..

Svar

Jeg tror hva du kan vær veldig interessert i, men er standardfeilen i stedet for standardavviket.

Standardfeilen til gjennomsnittet (SEM) er standarden avvik fra gjennomsnittet av utvalget av et populasjonsmiddel, og det vil gi deg et mål på hvor godt ditt årlige MWh-estimat er.

Det er veldig enkelt å beregne: hvis du brukte $ n $ prøver for å oppnå dine månedlige MWh-gjennomsnitt og standardavvik, du vil bare beregne standardavviket som @IanBoyd foreslo og normalisere det etter den totale størrelsen på prøven. Det vil si,
$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *