Cum să ' suma ' o abatere standard?

Am o medie lunară pentru o valoare și o abatere standard corespunzătoare acelei medii. Acum calculez media anuală ca sumă a mediilor lunare, cum pot reprezenta deviația standard pentru media însumată?

De exemplu, luând în considerare producția dintr-un parc eolian:

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 

Putem spune că în anul mediu parcul eolian produce 10.358 MWh, dar care este abaterea standard corespunzătoare acestei cifre?

Comentarii

  • O discuție în urma unui răspuns acum șters a remarcat o posibilă ambiguitate în această întrebare: căutați SD-ul mediilor lunare sau doriți să recuperați SD-ul dintre toate valorile originale din care au fost construite acele medii? Respectivul răspuns a subliniat, de asemenea, corect că, dacă îl doriți pe acesta din urmă, veți avea nevoie de numărul de valori implicate în fiecare dintre mediile lunare.
  • Un comentariu la un alt răspuns șters a subliniat că este ciudat să calculați o medie ca sumă : cu siguranță vrei să spui că faci o medie a mediilor lunare. Dar dacă ceea ce doriți este să estimați media tuturor datelor originale, atunci o astfel de procedură nu este de obicei una bună: este necesară o medie ponderată . Și, desigur, ‘ nu este posibil să oferiți un răspuns bun la întrebarea dvs. despre ” SD pentru media însumată ” până când este clar ce este ” media însumată ” și ce este destinat să reprezinte. Vă rugăm să clarificați acest lucru pentru noi.
  • @whuber Am adăugat un exemplu pentru a clarifica. Din punct de vedere matematic, cred că suma mediilor este egală cu media lunară de ori 12.
  • Da, klonq, aceasta este o cerere foarte rezonabilă. Cu toate acestea, aceste răspunsuri au fost șterse de proprietarul lor, nu de comunitate. Pentru a-și păstra valoarea, am încercat aici să transmit (ideea mea) ideile cheie care apar în aceste răspunsuri și în comentariile lor. BTW, modificările dvs. recente sunt destul de utile: oamenilor le place să vadă exemple de date.
  • Cu siguranță, media diferenței și astfel calcularea deviației standard medii nu poate fi ‘ intreg raspuns! Toate acestea reprezintă variația medie în măsurarea puterii de ieșire ÎNTR-o singură lună. Acesta este un bun început pentru a obține o valoare precisă a erorii de măsurare, dar nu ‘ această abatere standard de 232 trebuie combinată într-un fel cu variația INTER-LUNARĂ a puterii de ieșire. adică cred că abaterea standard rezultată finală pentru Marea Medie ar trebui să fie puțin mai mare decât 232 dacă țineți cont de eroarea combinată în măsurarea ambelor în fiecare lună, precum și BET

Răspuns

Răspuns scurt: mediați varianțe ; atunci puteți lua rădăcină pătrată pentru a obține media abaterea standard .


Exemplu

Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964 

Și apoi abaterea standard este sqrt(53,964) = 232


Din Suma variabilelor aleatoare distribuite în mod normal :

Dacă $ X $ și $ Y $ sunt variabile aleatoare independente care sunt distribuite în mod normal (și, prin urmare, în comun), atunci suma lor este distribuită în mod normal

… suma a două independente în mod normal variabilele aleatoare distribuite sunt normale, cu media sa fiind suma celor două medii, iar varianța sa fiind suma celor două varianțe

Și din Wolfram Alpha „s Distribuție normală a sumei :

În mod uimitor, distribuția unei sume de două distribuite în mod normal, variază $ X $ și $ Y $ cu mijloace și v arianțe $ (\ mu_X, \ sigma_X ^ 2) $ și $ (\ mu_Y, \ sigma_Y ^ 2) $, respectiv este o altă distribuție normală

$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

care are medie

$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

și varianță

$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

Pentru datele dvs.:

  • sum: 10,358 MWh
  • varianță: 647,564
  • abaterea standard: 804.71 ( sqrt(647564) )

introduceți descrierea imaginii aici

Deci, pentru a răspunde la întrebarea dvs.:

  • Cum să „sumați” o abatere standard ?
  • Le însumați cvadratic:

    s = sqrt(s1^2 + s2^2 + ... + s12^2) 

Conceptual sumați variațiile , apoi luați rădăcina pătrată pentru a obține abaterea standard.


Deoarece eram curios, am vrut să știu media medie lunară abaterea standard a acesteia. Prin inducție, avem nevoie de 12 distribuții normale care:

  • însumează o medie de 10,358
  • sumă la o varianță de 647,564

Aceasta ar reprezenta 12 distribuții lunare medii de:

  • media 10,358/12 = 863.16
  • varianța 647,564/12 = 53,963.6
  • abaterea standard a sqrt(53963.6) = 232.3

introduceți descrierea imaginii aici

Putem verifica distribuțiile medii lunare adăugându-le de 12 ori, pentru a vedea că acestea egal cu distribuția anuală:

  • Medie: 863.16*12 = 10358 = 10,358 ( corect )
  • Varianță: 53963.6*12 = 647564 = 647,564 ( corect )

Notă : îl voi lăsa pe cineva cu cunoștințe despre matematica ezoterică Latex pentru a-mi converti imaginile cu formula și formula code în stackexchange formule formatate.

Editați : Am mutat scurtul, la punctul, răspunde sus. Pentru că azi trebuia să fac asta din nou, dar am vrut să verific de două ori dacă mediez varianțele .

Comentarii

  • Acest lucru pare să presupună că lunile sunt necorelate – ați făcut această presupunere explicită undeva? De asemenea, de ce trebuie să aducem distribuția normală? Dacă ‘ vorbim doar despre varianță, atunci aceasta pare inutilă – de exemplu, consultați răspunsul meu aici
  • @Marco Pentru că gândesc mai bine în imagini și face totul mai ușor de înțeles.
  • @Marco De asemenea, cred că această întrebare a început pe site-ul (acum defunct) stats.stackexchange. Un perete de formule este mai puțin accesibil decât tratamente mai simple, grafice, mai puțin riguroase.
  • Mă îndoiesc că acest lucru este corect. Imaginați-vă două seturi de date, fiecare cu câte o singură măsurare. Varianța lor pentru fiecare set este 0, dar setul ambelor măsurători are o varianță mai mare de 0 dacă punctele de date diferă.
  • @Njol, cred că ‘ de ce presupunem că toate variabilele au distribuție normală. Și o putem face aici, pentru că vorbim despre măsurarea fizică. În exemplul dvs., ambele variabile nu sunt distribuite în mod normal.

Răspuns

Aceasta este o întrebare veche, dar răspunsul a fost acceptat nu este de fapt corect sau complet. Utilizatorul dorește să calculeze abaterea standard pe date de 12 luni în care media și abaterea standard sunt deja calculate în fiecare lună. Presupunând că numărul eșantioanelor din fiecare lună este același, atunci este posibil să se calculeze media eșantionului și varianța pe parcursul anului din datele fiecărei luni. Pentru simplitate, presupunem că avem două seturi de date:

$ X = \ {x_1, …. x_N \} $

$ Y = \ {y_1, …., y_N \} $

cu valori cunoscute ale eșantionului mediu și varianței eșantionului, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .

Acum vrem să calculăm aceleași estimări pentru

$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .

Luați în considerare faptul că $ \ mu_x $ , $ \ sigma ^ 2_x $ sunt calculate ca:

$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $

Pentru a estima media și varianța peste setul total, trebuie să calculăm:

$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ care este dat în răspunsul acceptat. Cu toate acestea, pentru varianță, povestea este diferită:

$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $

$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $

$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $

Deci, dacă aveți varianța pentru fiecare subset și doriți varianța pentru întregul set, puteți media varianțele fiecărui subset dacă toate au aceeași medie. În caz contrar, trebuie să adăugați varianța mediei fiecărui subset.

Să spunem că în prima jumătate a anului producem exact 1000 MWh pe zi, iar în jumătatea secundă producem 2000 MWh pe zi. Apoi media și varianța producției de energie în prima și secunde jumătate sunt 1000 și 2000 pentru medie și varianța este 0 pentru ambele jumătăți. Acum există două lucruri diferite care ne-ar putea interesa:

1- Vrem să calculăm varianța producției de energie pe parcursul întregului an : apoi prin media celor două varianțe ajungem la zero, ceea ce nu este corect, deoarece energia pe zi pe întreg anul nu este constant. În acest caz trebuie să adăugăm varianța tuturor mijloacelor din fiecare subset. Matematic în acest caz variabila aleatorie de interes este producția de energie pe zi. Avem statistici de eșantion pe subseturi și vrem să calculăm eșantionul statistici pe o perioadă mai lungă de timp.

2- Dorim să calculăm varianța producției de energie pe an: Cu alte cuvinte, ne interesează cât de mult se schimbă producția de energie de la un an la altul. În acest caz, medierea varianței duce la răspunsul corect, care este 0, deoarece în fiecare an producem exact 1500 MHW în medie. Matematic, în acest caz, variabila aleatorie a interesului este media producției de energie pe zi, unde media se face pe tot parcursul anului.

Comentarii

  • Răspuns frumos. În opinia mea, modul de calculare depinde de modul în care doriți să prezentați SD rezultat (și ce ipoteză doriți să abordați folosind acest SD, dacă încercați să comparați cu un alt parc eolian etc.).

Răspuns

Aș dori să subliniez din nou incorectitudinea parțială a răspunsului acceptat. Formularea întrebării duce la confuzie.

Întrebarea are Media și StdDev pentru fiecare lună, dar nu este clar ce tip de subset este utilizat. Este media unei turbine eoliene din întreaga fermă sau media zilnică a întregii ferme? Dacă este media zilnică pentru fiecare lună, nu puteți adăuga media lunară pentru a obține media anuală, deoarece nu au același numitor. Dacă este media unitară, întrebarea ar trebui să precizeze

Putem spune că în anul mediu fiecare turbină din parcul eolian produce 10.358 MWh, …

În loc de

Putem spune că în anul mediu parcul eolian produce 10.358 MWh, …

Mai mult, Abaterea standard sau varianța reprezintă comparația cu media setului. NU conține nicio informație referitoare la media setului său părinte (setul mai mare din care este compus setul calculat).

Vizualizare varianță

Imaginea nu este neapărat foarte precisă, dar este transmite ideea generală. Să ne imaginăm ieșirea unui parc eolian ca în imagine. După cum puteți vedea, varianta ” locală ” nu are nimic de faceți cu variația ” global „, indiferent de modul în care le adăugați sau le înmulțiți. Dacă adăugați ” variante locale ” împreună, va fi foarte mic în comparație cu ” global ” varianță. Nu puteți prevedea varianța anului folosind varianța de 2 jumătate de an. Deci, în răspunsul acceptat, în timp ce calculul sumei este corect, împărțirea după 12 pentru a obține numărul lunar nu înseamnă nimic. . Din cele trei secțiuni, prima și ultima secțiune sunt greșite, a doua este corectă.

Din nou, este „este o aplicație foarte greșită, vă rugăm să nu o urmați sau vă va pune probleme. Calculați doar întregul lucru, utilizând producția totală anuală / lunară a fiecărei unități ca puncte de date, în funcție de numărul anual sau lunar, acesta ar trebui să fie răspunsul corect. Probabil că vrei așa ceva. Acesta este numărul meu generat aleatoriu. Dacă aveți datele, rezultatul din celula O2 ar trebui să fie răspunsul dvs.

introduceți descrierea imaginii aici

Comentarii

  • Vă mulțumesc foarte mult pentru imaginea care m-a ajutat foarte mult să înțeleg de ce răspunsul acceptat este incomplet și poate fie chiar greșit. Ați explicat-o foarte bine, vă mulțumesc!
  • Aceasta arată pericolul votului. Oamenii care votează sunt cei care nu ‘ știu răspunsul. Ca opoziție la codificare, oamenii care votează sunt oameni care obțin codul funcțional, cu cât votează mai mult, cu atât este mai bun răspunsul.Pentru statistici / matematică, mai multe voturi înseamnă doar că ‘ este mai atrăgător.

Răspuns

TL; DR

Având în vedere câteva zile, și pentru fiecare zi ni se oferă Media, Sample StdDev și numărul de eșantioane, notate ca: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Am dori să calculăm media și eșantionul StdDev pe parcursul tuturor zilelor.

Media este pur și simplu o medie ponderată: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$

Exemplul StdDev este acest lucru: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Unde subscript d denotă o zi în care am colectat Media, Sample StdDev și numărul de eșantioane pentru.

Detalii

Am avut o problemă similară în care am avut un proces care calculează o medie zilnică și Eșantionează StdDev și salvează acesta alături de numărul de probe zilnice. Folosind această intrare a trebuit să calculăm o medie săptămânală / lunară și un StdDev. Numărul de eșantioane pe zi nu a fost constant în cazul nostru.

Denotați media, eșantionul StdDev și numărul de eșantioane ale întregului set ca: $$ \ mu, \ \ sigma \ și \ N \ $$ Și pentru ziua d denotați Media, eșantionul StdDev și numărul de eșantioane ca: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Calculul întregului set „Media este pur și simplu o medie ponderată a zilelor” Medii în cauză: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Dar lucrurile sunt mult mai implicate atunci când se analizează Sample StdDev. Pentru o zi „Sample StdDev” avem: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Mai întâi un pic de curățare: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Să vedem termenul din dreapta al ecuației de mai sus. Dacă putem ajunge de la această sumă la următoarea sumă pe zi: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ atunci însumați peste zilele ne vor oferi ceea ce căutăm, deoarece zilele sunt disjuncte și acoperă întregul set: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ Înțelegerea pentru a ajunge de la StdDev zilnic la întregul set „StdDev” este să observați că, în timp ce noi nu avem probele zilnice, avem suma probelor zilnice prin media zilnică . Având în vedere această perspectivă, să lucrăm la termenul din dreapta al ecuației de mai sus: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ În acest moment nu am făcut altceva decât să adăugăm și să scădem termeni care vor elimina zero, păstrând ecuația la fel. sume pentru distracție și profit: $$ \ require {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ Sumații sunt peste j astfel încât termenii de însumare care nu depind de j pot fi simpli înmulțiți N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Și ne apropiem: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Acum, să gestionăm termenul din dreapta, deoarece nu putem folosi x j direct, dar îi putem folosi suma așa cum avem în ziua respectivă. Pur și simplu înmulțiți și împărțiți cu N d pentru a obține Media: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ În acest moment avem suma care trebuie calculată întregul set „Sample StdDev” și toți ceilalți termeni sunt cantități pe care le cunoaștem, și anume statisticile zilei și numărul de eșantioane.Să îl conectăm la pasul de curățare de mai sus: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Acum suntem gata să calculăm setul „Sample StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$

Comentarii

  • Notarea dvs. este un pic confuză pentru mine ca ‘ nu clarifică ceea ce înseamnă & abaterile standard sunt parametri cunoscuți (presupuși) & care sunt exemple de estimări.
  • Cunoscute sunt Nd, Mu-d, Sigma-d, trebuie să calculăm N, Mu, Sigma. Calculul N și Mu este banal, Sigma este cel implicat ..

Răspunde

Cred ce poți fii cu adevărat interesat de faptul că este eroarea standard mai degrabă decât deviația standard.

Eroarea standard a mediei (SEM) este standardul deviația estimării mediei eșantionului pentru media populației și aceasta vă va oferi o măsură cât de bună este estimarea dvs. anuală de MWh.

Este foarte ușor de calculat: dacă ați utilizat $ n $ eșantioane pentru a obține mediile lunare MWh și abaterile standard, ar trebui să calculați abaterea standard așa cum a sugerat @IanBoyd și să o normalizați prin dimensiunea totală a eșantionului. Adică, $ $ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *