Hvordan ' sum ' en standardafvigelse?

Jeg har et månedligt gennemsnit for en værdi og en standardafvigelse svarende til det gennemsnit. Jeg beregner nu det årlige gennemsnit som summen af månedlige gennemsnit, hvordan kan jeg repræsentere standardafvigelsen for det summerede gennemsnit?

For eksempel overvejer jeg output fra en vindmøllepark:

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 

Vi kan sige, at vindmølleparken i det gennemsnitlige år producerer 10.358 MWh, men hvad er standardafvigelsen svarende til dette tal?

Kommentarer

  • En diskussion efter et nu slettet svar bemærkede en mulig tvetydighed i dette spørgsmål: søger du SD for månedlige gennemsnit eller ønsker du at gendanne SD af alle de oprindelige værdier, hvorfra disse gennemsnit blev konstrueret? Svaret påpegede også korrekt, at hvis du vil have sidstnævnte, skal du bruge antallet af værdier, der er involveret i hvert af de månedlige gennemsnit.
  • En kommentar til et andet slettet svar påpegede, at det er underligt at beregne et gennemsnit som en sum : du mener helt sikkert, at du gennemsnittet af de månedlige gennemsnit. Men hvis det, du ønsker, er at estimere gennemsnittet af alle de originale data, så er en sådan procedure normalt ikke god: et vægtet gennemsnit er nødvendigt. Og selvfølgelig er det ‘ ikke muligt at give et godt svar på dit spørgsmål om ” SD for det summerede gennemsnit ” indtil det er klart, hvad ” summeret gennemsnit ” er, og hvad det er beregnet til at repræsentere. Afklar det for os.
  • @ whuber Jeg har tilføjet et eksempel for at afklare. Matematisk tror jeg, at summen af gennemsnit er lig med det månedlige gennemsnit gange 12.
  • Ja, klonq, det er en meget rimelig anmodning. Disse svar blev imidlertid slettet af deres ejer, ikke af samfundet. For at bevare deres værdi har jeg her forsøgt at videreformidle (min opfattelse) de nøgleideer, der opstår i disse svar og deres kommentarer. BTW, dine nylige ændringer er ret nyttige: folk kan godt lide at se eksempler på data.
  • Gennemsnitlig varians og dermed beregning af den gennemsnitlige standardafvigelse kan ‘ ikke være den hele svaret! Alt dette repræsenterer den gennemsnitlige varians i måling af effekt uden for en enkelt måned. Dette er en god start med at få en nøjagtig målestok for målefejl, men behøver ikke ‘ denne standardafvigelse på 232 kombineres på en eller anden måde med den INTERMÅNEDLIGE variation i effekt. dvs. jeg synes, at den endelige resulterende standardafvigelse for Grand Mean skal være lidt højere end 232, hvis du tager højde for den kombinerede fejl i måling af begge inden for hver måned såvel som BET

Svar

Kort svar: Du gennemsnitlig afvigelser ; så kan du tage kvadratroden for at få den gennemsnitlige standardafvigelse .


Eksempel

Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964 

Og så er den gennemsnitlige standardafvigelse sqrt(53,964) = 232


Fra Summen af normalt distribuerede tilfældige variabler :

Hvis $ X $ og $ Y $ er uafhængige tilfældige variabler, der er normalt fordelt (og derfor også i fællesskab), så fordeles deres sum også normalt

… summen af to uafhængige normalt distribuerede tilfældige variabler er normal, idet dets gennemsnit er summen af de to midler, og dens varians er summen af de to afvigelser

Og fra Wolfram Alpha “s Normal sumfordeling :

Utroligt nok er fordelingen af et beløb på to normalt distribuerede uafhængige variabler $ X $ og $ Y $ med middel og v ariances $ (\ mu_X, \ sigma_X ^ 2) $ henholdsvis $ (\ mu_Y, \ sigma_Y ^ 2) $ er en anden normalfordeling

$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

som har gennemsnit

$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

og varians

$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

For dine data:

  • sum: 10,358 MWh
  • varians: 647,564
  • standardafvigelse: 804.71 ( sqrt(647564) )

indtast billedbeskrivelse her

Så for at besvare dit spørgsmål:

  • Sådan “summeres” en standardafvigelse ?
  • Du summerer dem kvadratisk:

    s = sqrt(s1^2 + s2^2 + ... + s12^2) 

Konceptuelt summerer du variationerne , tag derefter kvadratroden for at få standardafvigelsen.


Fordi jeg var nysgerrig, ville jeg vide den gennemsnitlige månedlige betyder magt, og dens standardafvigelse . Gennem induktion har vi brug for 12 normale fordelinger, som:

  • sum til et gennemsnit på 10,358
  • sum til en varians på 647,564

Det ville være 12 gennemsnitlige månedlige fordelinger af:

  • middelværdi af 10,358/12 = 863.16
  • varians af 647,564/12 = 53,963.6
  • standardafvigelse på sqrt(53963.6) = 232.3

indtast billedbeskrivelse her

Vi kan kontrollere vores månedlige gennemsnitlige fordelinger ved at tilføje dem op 12 gange for at se, at de svarer til den årlige fordeling:

  • Gennemsnit: 863.16*12 = 10358 = 10,358 ( korrekt )
  • Varians: 53963.6*12 = 647564 = 647,564 ( korrekt )

Bemærk : i “overlader det til nogen med kendskab til den esoteriske Latex-matematik at konvertere mine formelbilleder og formula code i stackexchange formaterede formler.

Rediger : Jeg flyttede den korte til pointen, svar ovenpå. Fordi jeg havde brug for at gøre dette igen i dag, men ønskede at dobbelttjekke, at jeg gennemsnit afvigelserne .

Kommentarer

  • Alt dette antages at antage, at månederne ikke er korreleret – har du gjort denne antagelse eksplicit hvor som helst? Hvorfor skal vi også bringe normalfordelingen ind? Hvis vi ‘ kun taler om varians, så virker det unødvendigt – se f.eks. Mit svar her
  • @Marco Fordi jeg tænker bedre i billeder, og det gør alt lettere at forstå.
  • @Marco Jeg tror også, at dette spørgsmål startede på (nu afviklede) stats.stackexchange-websted. En formelvæg er mindre tilgængelig end enklere, grafiske, mindre stringente behandlinger.
  • Jeg tvivler på, at dette er korrekt. Forestil dig to datasæt med hver kun en enkelt måling hver. Deres varians for hvert sæt er 0, men sættet for begge målinger har en varians større end 0, hvis datapunkterne er forskellige.
  • @Njol, jeg tror, at ‘ hvorfor vi antager, at alle variabler har normalfordeling. Og vi kan gøre det her, fordi vi taler om phisical måling. I dit eksempel er begge variabler ikke normalt fordelt.

Svar

Dette er et gammelt spørgsmål, men svaret accepteret faktisk ikke er korrekt eller komplet. Brugeren ønsker at beregne standardafvigelsen over 12-måneders data, hvor gennemsnittet og standardafvigelsen allerede er beregnet over hver måned. Antages det, at antallet af prøver i hver måned er det samme, så er det muligt at beregne stikprøvernes gennemsnit og varians over året fra hver måneds data. For nemheds skyld antager vi, at vi har to datasæt:

$ X = \ {x_1, …. x_N \} $

$ Y = \ {y_1, …., y_N \} $

med kendte værdier for eksempelværdi og prøvevarians, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .

Nu vil vi beregne de samme skøn for

$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .

Overvej at $ \ mu_x $ , $ \ sigma ^ 2_x $ beregnes som:

$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $

For at estimere middelværdien og variansen over det samlede sæt skal vi beregne:

$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ som er angivet i det accepterede svar. For varians er historien dog anderledes:

$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $

$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $

$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $

Så hvis du har variansen over hver delmængde, og du vil have variansen over hele sættet, kan du gennemsnitlig variere for hver delmængde, hvis de alle har det samme gennemsnit. Ellers skal du tilføje variansen af gennemsnit for hver delmængde.

Lad os sige, at vi i løbet af første halvdel af året producerer nøjagtigt 1000 MWh pr. dag og i sekunder halvdelen producerer vi 2000 MWh pr. dag. Derefter middelværdien og variansen af energiproduktion i første og sekunder halvdel er 1000 og 2000 for gennemsnit og varians er 0 for begge halvdele. Nu er der to forskellige ting, som vi måske er interesserede i:

1- Vi vil beregne variansen af energiproduktion over hele året : derefter ved at beregne de to varianser, når vi nul, hvilket ikke er korrekt, da energien pr. Dag over det hele år er ikke konstant. I dette tilfælde er vi nødt til at tilføje variansen af alle midlerne fra hver delmængde. Matematisk i dette tilfælde er den tilfældige variabel af interesse energiproduktion pr. dag. Vi har eksempler på statistikker over delmængder, og vi vil beregne prøven statistik over længere tid.

2- Vi ønsker at beregne variansen af energiproduktion pr. år: Med andre ord er vi interesserede i, hvor meget energiproduktion ændres fra et år til et andet år. I dette tilfælde fører gennemsnit af variansen til det korrekte svar, som er 0, da vi hvert år producerer nøjagtigt 1500 MHW i gennemsnit. Matematisk i dette tilfælde er den tilfældige variabel af interesse gennemsnit af energiproduktion pr. Dag, hvor gennemsnittet udføres over hele året.

Kommentarer

  • Dejligt svar. Efter min mening afhænger det af, hvordan du beregner det, hvordan du vil præsentere den resulterende SD (og hvilken hypotese du vil tage fat på ved hjælp af denne SD, hvis du prøver at sammenligne med en anden vindmøllepark osv.).

Svar

Jeg vil gerne igen understrege forkeringen i en del af det accepterede svar. Formuleringen af spørgsmålet fører til forvirring.

Spørgsmålet har gennemsnit og StdDev for hver måned, men det er uklart, hvilken slags delmængde der bruges. Er det gennemsnittet af 1 vindmølle for hele gården eller det daglige gennemsnit for hele gården? Hvis det er det daglige gennemsnit for hver måned, kan du ikke tilføje det månedlige gennemsnit for at få det årlige gennemsnit, fordi de ikke har den samme nævner. Hvis det er enhedsgennemsnittet, skal spørgsmålet angive

Vi kan sige, at i det gennemsnitlige år hver vindmølle i vindmølleparken producerer 10.358 MWh, …

I stedet for

Vi kan sige, at vindmølleparken i det gennemsnitlige år producerer 10.358 MWh, …

Yderligere mere, Standardafvigelsen eller variansen er sammenligningen med sætets eget gennemsnit. Det indeholder IKKE nogen oplysninger om gennemsnittet for dets overordnede sæt (det større sæt, som det beregnede sæt er en komponent i).

Variansvisualisering

Billedet er ikke nødvendigvis meget præcist, men det formidler den generelle idé. Lad os forestille os output fra en vindmøllepark som på billedet. Som du kan se, har ” local ” ikke noget at gør med ” global ” varians, uanset hvordan du tilføjer eller multiplicerer dem. Hvis du tilføjer ” lokale ” afvigelser sammen, det vil være meget lille sammenlignet med ” global ” varians. Du kan ikke forudsige årets varians ved hjælp af varians på 2 halvår. Så i det accepterede svar, mens sumberegningen er korrekt, divideres med 12 for at få det månedlige antal betyder intet. . Af de tre sektioner er det første og det sidste afsnit forkert, det andet er rigtigt.

Igen er det “en meget forkert applikation, følg den ikke, ellers får du problemer. Bare bereg for det hele ved at bruge den samlede årlige / månedlige produktion af hver enhed som datapunkter afhængigt af om du vil have et årligt eller månedligt antal, det skal være det rigtige svar. Du vil sandsynligvis have noget som dette. Dette er mine tilfældigt genererede tal. Hvis du har dataene, skal resultatet i celle O2 være dit svar.

indtast billedbeskrivelse her

Kommentarer

  • Mange tak for billedet, som hjalp mig meget med at forstå, hvorfor det accepterede svar er ufuldstændigt og måske være endda forkert. Du forklarede det meget godt, tak!
  • Dette viser faren ved at stemme. De mennesker, der stemmer, er de mennesker, der ikke ‘ ikke kender svaret. I modsætning til kodning er de mennesker, der stemmer, personer, der får koden til at fungere, jo flere stemmer, jo bedre er svaret.For statistik / matematik betyder flere stemmer kun, at det ‘ er mere tiltalende.

Svar

TL; DR

Givet adskillige dage, og for hver dag får vi dets gennemsnit, prøve StdDev og antal prøver, betegnet som: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Vi vil gerne beregne gennemsnittet og prøven StdDev på tværs af alle dage.

Gennemsnit er simpelthen et vægtet gennemsnit: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$

Eksempel på StdDev er denne ting: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Hvor abonnement d betegner en dag, hvor vi indsamlede gennemsnit, prøve StdDev og antal prøver for.

Detaljer

Vi har haft et lignende problem, hvor vi havde en proces, der beregner et dagligt gennemsnit og Prøve StdDev og gemmer det sammen med antallet af daglige prøver. Ved hjælp af dette input måtte vi beregne et ugentligt / månedligt gennemsnit og StdDev. Antallet af prøver pr. dag var ikke konstant i vores tilfælde.

Angiv gennemsnittet, prøve StdDev og antal prøver af hele sættet som: $$ \ mu, \ \ sigma \ og \ N \ $$ Og for dagen d betegner gennemsnittet, prøven StdDev og antallet af prøver som: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Beregning af hele sætets gennemsnit er simpelthen et vægtet gennemsnit af dagene “Omtalte gennemsnit: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Men ting er meget mere involveret, når man overvejer Sample StdDev. For en dags prøve StdDev har vi: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Først en smule oprydning: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Lad os se på højre side af ligningen ovenfor. Hvis vi kan nå fra denne sum til den følgende sum pr. Dag: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ så er summen over dagene giver os det, vi leder efter, da dagene er uafhængige og dækker hele sættet: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ Indsigten for at komme fra daglig StdDev til hele sættets StdDev er at bemærke, at mens vi ikke har de daglige prøver, har vi summen af de daglige prøver gennem det daglige gennemsnit . I betragtning af denne indsigt lad os arbejde på højre side af ligningen ovenfor: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ På dette tidspunkt gjorde vi intet andet end at tilføje og trække termer, der vil nulstille og holde ligningen den samme. Nu da vi summerer over N d på alle summeringer, lad os omskrive summeringer for sjov og profit: $$ \ kræver {annullere} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ annullere {\ mu_d} + \ mu- \ annullere { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ Summationer er over j så summeringsudtryk, der ikke er afhængige af j, kan simpelthen ganges med N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Og vi nærmer os: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Lad os nu håndtere ordet længst til højre, da vi ikke kan bruge x j direkte, men vi kan bruge summen, som vi har den dags gennemsnit. Multiplicer og del blot med N d for at få gennemsnittet: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ På dette tidspunkt har vi den opsummering, vi skal beregne hele sætets prøveeksempel StdDev og alle andre udtryk er mængder, vi kender, nemlig dagsstatistikker og antal prøver.Lad os slutte det til oprydningstrinnet ovenfor: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Vi er nu klar til at beregne sættets eksempel StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$

Kommentarer

  • Din notation er lidt forvirrende for mig som det gør ‘ ikke klart, hvilket betyder & standardafvigelser er kendte (antages) parametre & som er prøveoverslag.
  • Kendte er Nd, Mu-d, Sigma-d, vi skal beregne N, Mu, Sigma. Computing N og Mu er trivielt, Sigma er den involverede ..

Svar

Jeg tror hvad du kan vær virkelig interesseret i er standardfejl snarere end standardafvigelsen.

Standardfejlen for middelværdien (SEM) er standarden afvigelse af prøve-middelværdiets estimat af et populationsmiddel, og det vil give dig et mål, hvor godt dit årlige MWh-estimat er.

Det er meget let at beregne: hvis du brugte $ n $ prøver for at opnå dine månedlige MWh-gennemsnit og standardafvigelser, du ville bare beregne standardafvigelsen som @IanBoyd foreslog og normalisere den efter den samlede størrelse af din prøve. Det vil sige,
$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *