Hogyan lehet ' összegezni ' egy szórást?

Van egy havi átlagom egy értékhez és ennek az átlagnak megfelelő szórás. Most az éves átlagot a havi átlagok összegeként számolom, hogyan ábrázolhatom az összesített átlag szórását?

Például figyelembe véve a szélerőművek teljesítményét:

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 

Mondhatjuk, hogy az átlagos évben a szélerőmű 10 358 MWh-t produkál, de mekkora ennek a számnak a szórása?

Megjegyzések

  • A most törölt választ követő beszélgetés lehetséges kétértelműséget észlelt ebben a kérdésben: a havi átlagok SD-jét keresi, vagy vissza kívánja állítani az SD-t az összes eredeti érték közül, amelyből ezeket az átlagokat alkották? Ez a válasz helyesen rámutatott arra is, hogy ha ez utóbbit akarja, akkor a havi átlagokban szereplő értékek számára lesz szükség.
  • Egy másik törölt válaszhoz fűzött megjegyzés rámutatott, hogy furcsa kiszámítani. egy átlag, mint összeg : biztosan arra gondolsz, hogy átlagolod a havi átlagokat. De ha azt szeretné, hogy megbecsülje az összes eredeti adat átlagát, akkor egy ilyen eljárás általában nem megfelelő: súlyozott átlagra van szükség. És természetesen ‘ nem lehet jó választ adni az ” SD-re vonatkozó kérdésére az összesített átlagra “, amíg nem világos, hogy mi az ” összesített átlag “, és mit kíván képviselni. Kérjük, tisztázza ezt számunkra.
  • @whuber Tettem egy példát a tisztázásra. Matematikailag úgy gondolom, hogy az átlagok összege megegyezik a havi átlag 12-szeresével.
  • Igen, klonq, ez nagyon ésszerű kérés. Ezeket a válaszokat azonban a tulajdonos, nem pedig a közösség törölte. Értékük megőrzése érdekében itt megpróbáltam átadni (átvenni) a válaszokban és észrevételeikben felmerülő legfontosabb ötleteket. BTW, a legutóbbi szerkesztéseid nagyon hasznosak: az emberek szívesen látnak példadatokat.
  • A szórás átlagolása és az átlagos szórás kiszámítása bizonyára ‘ lehet a egész válasz! Mindez az átlagos eltérés a teljesítmény kimenetének mérésében egyetlen hónapon belül. Ez jó kiindulópont a mérési hibák pontos elsajátításához, de nem szükséges, hogy ezt a 232-es szórást valamilyen módon kombinálni kell a kimenet havi közötti változásával. azaz úgy gondolom, hogy a végeredményként kapott középértéknek valamivel magasabbnak kell lennie a 232-nél, ha figyelembe veszi mind a havi mérés, mind a BET együttes mérésének hibáját

Válasz

Rövid válasz: Átlagolja a varianciákat ; akkor négyzetgyököt vehet az átlag szórás megszerzéséhez.


Példa

Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964 

És akkor az átlagos szórás sqrt(53,964) = 232


From A normál eloszlású véletlen változók összege :

Ha $ X $ és $ Y $ független, véletlenszerű változók, amelyek eloszlása normális (és ezért együtt is van), akkor az összegük is normálisan eloszlik

… két független, általában normális eloszlás az elosztott véletlen változók normálisak, az átlag a két átlag összege, a szórása pedig a két variancia összege

És a Wolfram Alpha-ból “s Normál összegeloszlás :

Bámulatos, hogy kettő összegének eloszlása a normálisan elosztott független $ X $ -t és $ Y $ -ot variál átlagokkal és v-vel ariance $ (\ mu_X, \ sigma_X ^ 2) $ és $ (\ mu_Y, \ sigma_Y ^ 2) $ egy másik normális eloszlás

$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

aminek jelentése

$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

és szórás

$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

az adatok:

  • összeg: 10,358 MWh
  • variancia: 647,564
  • szórás: 804.71 ( sqrt(647564) )

írja ide a kép leírását

Tehát a kérdés megválaszolásához:

  • Hogyan lehet “összegezni” egy szórást? div id = “dba29d155a”>

?

  • Négyes sorrendben összegzi őket:

    s = sqrt(s1^2 + s2^2 + ... + s12^2) 
  • Fogalmilag összegzi a varianciákat , majd vegye be a négyzetgyököt a szórás megszerzéséhez.


    Mivel kíváncsi voltam, meg akartam tudni az átlagos havi átlag teljesítményt, és annak szórása . Az indukció révén 12 normális eloszlásra van szükségünk, amelyek:

    • összegezik 10,358 átlagát
    • 647,564

    Ez 12 átlagos havi eloszlást jelentene:

    • a
    • 647,564/12 = 53,963.6 szórása
    • sqrt(53963.6) = 232.3 szórása li>

    írja ide a kép leírását

    Ellenőrizhetjük havi átlagos eloszlásainkat, ha 12-szer összeadjuk őket, hogy lássuk, megegyezik az éves megoszlással:

    • Jelentés: 863.16*12 = 10358 = 10,358 ( helyes )
    • Variancia: 53963.6*12 = 647564 = 647,564 ( helyes )

    Megjegyzés : Az ezoterikus Latex matematikát ismerő személyre bízom a képletképek konvertálását, és / div> veremcsere formázott képletekké.

    Szerkesztés : áthelyeztem a rövidet a a lényeg, válaszolj fent. Mivel ezt ma újra meg kellett tennem, de meg akartam ellenőrizni, hogy átlagosan a varianciák ban vannak-e.

    Megjegyzések

    • Úgy tűnik, hogy mindez azt feltételezi, hogy a hónapok nincsenek korrelálva – egyértelművé tette ezt a feltételezést bárhol? Miért kell behoznunk a normál eloszlást? Ha ‘ csak a varianciáról beszélünk, akkor ez feleslegesnek tűnik – lásd például a válaszomat itt
    • @Marco Mert jobbnak gondolom a képeket, és ez mindent könnyebben megért.
    • @Marco Ezenkívül úgy gondolom, hogy ez a kérdés a (most megszűnt) stats.stackexchange webhelyen kezdődött. A képletek fala kevésbé hozzáférhető, mint az egyszerűbb, grafikusabb és kevésbé szigorú kezelések.
    • Kétlem, hogy ez helytálló. Képzeljen el két adatsort, mindegyiknek csak egy-egy mérését. Az egyes halmazok szórása 0, de mindkét mérés halmazának szórása nagyobb, mint 0, ha az adatpontok eltérnek.
    • @Njol, azt hiszem, hogy ‘ s miért feltételezzük, hogy az összes változó normális eloszlású. És itt megtehetjük, mert a fizikai mérésről beszélünk. A példádban mindkét változó nincs normálisan elosztva.

    Válasz

    Ez egy régi kérdés, de a választ elfogadtuk valójában nem helyes vagy teljes. A felhasználó szeretné kiszámolni a szórást a 12 hónapos adatokra, ahol az átlagot és a szórást már minden hónapra kiszámítják. Feltéve, hogy a minták száma minden hónapban megegyezik, akkor kiszámítható a minta átlaga és szórása az év során az egyes hónapok adataiból. Az egyszerűség kedvéért tegyük fel, hogy két adatsorunk van:

    $ X = \ {x_1, …. x_N \} $

    $ Y = \ {y_1, …., y_N \} $

    a minta átlagának és a minta varianciájának ismert értékeivel, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .

    Most ugyanazokat a becsléseket szeretnénk kiszámítani a következőre:

    $ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .

    Fontolja meg, hogy $ \ mu_x $ , a $ \ sigma ^ 2_x $ kiszámítása a következő:

    $ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

    $ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $

    A teljes halmaz átlagának és szórásának becsléséhez ki kell számolnunk:

    $ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ , amelyet az elfogadott válasz ad meg. Variancia esetén azonban a történet más:

    $ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $

    $ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $

    $ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $

    Tehát, ha az egyes részhalmazoknál megvan a variancia, és az egész halmazra szeretné a varianciát, akkor átlagolhatja az egyes részhalmazok varianciáit, ha mindegyiknek ugyanaz az átlaga. Ellenkező esetben hozzá kell adni az egyes részhalmazok átlagának szórását.

    Mondjuk azt, hogy az év első felében naponta pontosan 1000 MWh-t, a másodpercek felében pedig napi 2000 MWh-t állítunk elő. Ezután az energiatermelés átlaga és szórása az első és a másodperc fele 1000 és 2000 az átlag, a szórás pedig mindkét fél esetében 0. Most két különböző dolog érdekelhet minket:

    1- Szeretnénk kiszámítani az energiatermelés szórását az egész évre : akkor a két variancia átlagolásával nullára jutunk, ami nem helyes, mivel a napi energia az egészben Az év nem állandó. Ebben az esetben hozzá kell adnunk az egyes részhalmazok összes átlagának varianciáját. Matematikailag ebben az esetben a véletlenszerű változó a napi energiatermelés. Van részstatisztikánk mintadokumentummal, és ki akarjuk számolni a mintát statisztikák hosszabb ideig.

    2- Szeretnénk kiszámítani az energiatermelés évi szórását: Más szóval arra vagyunk kíváncsiak, hogy mennyi energiatermelés változik egyik évről a másikra. Ebben az esetben a variancia átlagolása a helyes válaszhoz vezet, amely 0, mivel minden évben átlagosan pontosan 1500 MHW-t állítunk elő. Matematikailag ebben az esetben a véletlenszerű változó a napi energiatermelés átlaga, ahol az átlagolást egész évben végzik.

    Megjegyzések

    • Kedves válasz. Véleményem szerint annak kiszámítása attól függ, hogy hogyan szeretné bemutatni az eredő SD-t (és milyen hipotézist kíván megválaszolni ennek az SD-nek a segítségével, ha összehasonlítani próbál egy másik szélerőművel stb.).

    Válasz

    Szeretném még egyszer hangsúlyozni az elfogadott válasz egy részében a tévedést. A kérdés megfogalmazása zavart vezet.

    A kérdéshez minden hónap átlagos és StdDev értéke tartozik, de nem világos, hogy milyen részhalmazot használunk. Ez az egész gazdaság 1 szélturbinájának átlaga, vagy az egész gazdaság napi átlaga? Ha ez az egyes hónapok napi átlaga, akkor nem tudja összeadni a havi átlagot az éves átlag megszerzéséhez, mert nem ugyanaz a nevezőjük. Ha ez az egység átlaga, akkor a kérdésnek meg kell adnia

    Mondhatjuk, hogy az átlagos évben minden turbina a szélerőműparkban 10 358 MWh, …

    A

    Mondhatjuk, hogy az átlagos évben a szélerőmű 10 358 MWh, …

    Továbbá, A szórás vagy szórás a halmaz saját átlagának összehasonlítása. NEM tartalmaz információt a szülőkészlet átlagáról (a nagyobb halmazról, amelynek a kiszámított halmaz része).

    Varianciák megjelenítése

    A kép nem feltétlenül túl pontos, de közvetíti az általános gondolatot. Képzeljük el egy szélerőmű kimenetét, mint a képen. Mint látható, a ” helyi ” varianciának nincs mit tennie tegye a ” globális ” varianciával, függetlenül attól, hogy ezeket hogyan adja hozzá vagy szorozza meg. Ha hozzáadja a ” local ” együttesen változik, nagyon kicsi lesz a ” globális ” variancia. Nem lehet megjósolni az év varianciáját 2 féléves variancia használatával. Tehát az elfogadott válaszban, bár az összeg kiszámítása helyes, osztás A 12-es szám a havi szám megszerzéséhez nem jelent semmit. . A három szakasz közül az első és az utolsó szakasz hibás, a második helyes.

    Ismét ez “Nagyon rossz alkalmazás, kérjük, ne kövesse, különben bajba kerül. Csak számolja ki az egészet, az egyes egységek teljes éves / havi kibocsátását felhasználva adatpontként, attól függően, hogy éves vagy havi számot szeretne-e, ez legyen a helyes válasz. Valószínűleg ilyesmire vágysz. Ez az én véletlenszerűen generált számom. Ha rendelkezik adatokkal, akkor az O2 cellában kapott eredménynek a válasznak kell lennie.

    írja ide a kép leírását

    Megjegyzések

    • Köszönöm szépen a képet, amely sokat segített megérteni, miért hiányos az elfogadott válasz, és miért sőt tévedj. Nagyon jól elmagyarázta, köszönöm!
    • Ez megmutatja a szavazás veszélyét. Azok a személyek, akik szavaznak, nem tudják a választ ‘. A kódolással szemben a szavazók azok, akik működnek a kódban, minél több a szavazat, annál jobb a válasz.Statisztika / matematika esetében a több szavazat csak azt jelenti, hogy ‘ vonzóbb.

    Válasz

    TL; DR

    Több napra van szükség, és minden napra megadjuk az átlagát, a mintáját StdDev és a minták számát, a következőképpen jelölve: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Szeretnénk kiszámítani az átlagot és a StdDev mintát minden napra.

    Az átlag egyszerűen súlyozott átlag: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$

    Az StdDev minta a következő: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Hol az index d azt a napot jelöli, amelyre az átlagot, a minta StdDev-t és a minták számát gyűjtöttük.

    Részletek

    Hasonló problémánk volt, amelyben volt egy folyamatunk, amely kiszámítja a napi átlagot és StdDev minta és mentés a napi minták száma mellett. Ezen bemenet segítségével ki kellett számolnunk egy heti / havi átlagot és StdDev-t. A napi minták száma esetünkben nem volt állandó.

    Jelölje az átlagot, a StdDev mintát és a teljes készlet mintáinak száma: $$ \ mu, \ \ sigma \ és \ N \ $$ És d az átlagot, a minta StdDev értéket és a minták számát jelölje: $$ \ mu_d, \ \ sigma_d, \ N_d $$ A teljes készlet átlagának kiszámítása egyszerűen a napok súlyozott átlaga. A kérdéses átlagok: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ De a dolgok sokkal inkább érintettek, ha figyelembe vesszük a StdDev mintát. Egy nap StdDev mintájához a következők tartoznak: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Először egy kis takarítás: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Nézzük meg a fenti egyenlet jobb oldali tagját. Ha el tudunk érni ettől az összegtől a következő összegig naponta: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ , akkor összegezzük a napok meg fogják adni nekünk, amit keresünk, mivel a napok szét vannak választva, és lefedik az egész halmazt: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ Az a meglátás, hogy a napi StdDev-ről a teljes “StdDev” -re eljuthatunk, ha észrevesszük, hogy miközben mi nem rendelkezzen a napi mintákkal, megvan a napi minták összege a napi átlag között. Ezt a betekintést figyelembe véve dolgozzunk a fenti egyenlet jobb oldali kifejezésével: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ összeg_ {N_d} {\ mu ^ 2}) + (2 \ összeg_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ összeg_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ Ezen a ponton nem tettünk mást, csak összeadtunk és kivontunk olyan kifejezéseket, amelyek nullázzák az egyenletet. Az N d értéket összesítve összegezzük, írjuk át összegzés a szórakozás és a profit érdekében: $$ \ required {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ összeg_ {N_d} {\ mu_d ^ 2} – \ összeg_ {N_d} {\ mu ^ 2} +2 \ összeg_ {N_d} {x_j (\ mu- \ mu_d }) $$ Az összegzések elmúltak j , így a j-től nem függő összesítési kifejezések egyszerűen megszorozhatók N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ És közeledünk: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Most kezeljük a jobb szélső kifejezést, mivel nem használhatjuk az x j közvetlenül, de az összegét felhasználhatjuk az adott nap átlagával. Egyszerűen szorozzon és osszon el N d -nel, hogy megkapja az Átlagot: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ Ezen a ponton megvan az összegzés, amelyet ki kell számolnunk a teljes Sd StdDev készlet és az összes többi kifejezés az ismert mennyiség, nevezetesen a napi statisztika és a minták száma.Csatlakoztassuk a fenti tisztítási lépésre: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ baloldali nyíl \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ balra nyíl \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Most készen állunk a “s Sd StdDev: minta kiszámítására $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$

    megjegyzések

    • Az ön jelölése kissé zavaró számomra, mivel ez nem ‘ nem teszi egyértelművé, ami azt jelenti, hogy & ismert szórások ismertek (feltételezett) paraméterek & amelyek mintabecslések.
    • Ismert Nd, Mu-d, Sigma-d, ki kell számolnunk N, Mu, Sigma értékeket. N és Mu kiszámítása triviális, Sigma az érintett ..

    Válasz

    Hiszek abban, amit lehet érdekeljen igazán, hogy a szabványhiba és nem a szórás.

    Az átlag standard hibája (SEM) a standard A minta átlagának becsült populációs átlagának eltérése, és ez meg fogja mérni, mennyire jó az éves MWh becslés.

    Nagyon könnyű kiszámítani: ha $ n-t használt $ mintát kap a havi MWh átlagokhoz és szórásokhoz, csak kiszámolja a szórást, ahogy azt @IanBoyd javasolta, és normalizálja a minta teljes méretével. Vagyis:
    $$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ -szer n}} $$

    Vélemény, hozzászólás?

    Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük