Jak ' sečíst ' standardní odchylku?

Mám měsíční průměr pro hodnotu a směrodatnou odchylku odpovídající tomuto průměru. Nyní počítám roční průměr jako součet měsíčních průměrů, jak mohu představovat směrodatnou odchylku pro sčítaný průměr?

Například s ohledem na výstup z větrné farmy:

Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 

Můžeme říci, že v průměrném roce větrná farma produkuje 10 358 MWh, ale jaká je standardní odchylka odpovídající tomuto číslu?

Komentáře

  • V diskusi, která následovala po nyní smazané odpovědi, byla v této otázce zaznamenána možná nejednoznačnost : hledáte SD měsíčních průměrů nebo chcete SD získat zpět ze všech původních hodnot, ze kterých byly tyto průměry vytvořeny? Tato odpověď také správně poukázala na to, že pokud chcete druhou, budete potřebovat počty hodnot zahrnutých v každém z měsíčních průměrů.
  • Komentář k další smazané odpovědi poukázal na to, že je zvláštní počítat průměr jako součet : určitě to znamená, že zprůměrujeme průměrné měsíční průměry. Pokud ale chcete odhadnout průměr všech původních dat, pak takový postup obvykle není dobrý: je zapotřebí vážený průměr. A samozřejmě ‚ není možné dát dobrou odpověď na vaši otázku týkající se “ SD pro průměrný součet “ dokud není jasné, jaký je “ souhrnný průměr “ a co má představovat. Upřesněte to prosím za nás.
  • @whuber Přidal jsem příklad k objasnění. Matematicky se domnívám, že součet průměrů se rovná průměrnému měsíčnímu času 12.
  • Ano, klonq, to je velmi rozumný požadavek. Tyto odpovědi však byly odstraněny jejich vlastníkem, nikoli komunitou. Abych zachoval jejich hodnotu, pokusil jsem se zde předat klíčové myšlenky vyplývající z těchto odpovědí a jejich komentářů. BTW, vaše nedávné úpravy jsou velmi užitečné: lidé rádi vidí ukázková data.
  • Určitě zprůměrujeme rozptyl a vypočítáme průměrnou směrodatnou odchylku. ‚ nemůže být celá odpověď! To vše představuje průměrnou odchylku v měření výstupního výkonu DO jediného měsíce. To je dobrý začátek pro získání přesného odhadu chyby měření, ale ‚ tuto standardní odchylku 232 není nutné nějakým způsobem kombinovat s MĚSÍČNÍ odchylkou výkonu. tj. myslím si, že konečná výsledná směrodatná odchylka pro Grand Mean by měla být o něco vyšší než 232, pokud zohledníte kombinovanou chybu v měření jak v každém měsíci, tak i BET

Odpověď

Krátká odpověď: odchylky ; pak můžete pomocí odmocniny získat průměrnou standardní odchylku .


Příklad

Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964 

A pak průměrná standardní odchylka je sqrt(53,964) = 232


Od Součet normálně distribuovaných náhodných proměnných :

Pokud jsou $ X $ a $ Y $ nezávislé náhodné proměnné, které jsou normálně distribuovány (a tedy i společně), pak je jejich součet také normálně distribuován

… součet dvou nezávislých normálně distribuované náhodné proměnné jsou normální, přičemž jejich průměr je součtem dvou průměrů a jeho rozptyl je součtem dvou odchylek

A od Wolfram Alpha „s Normální rozdělení součtu :

Překvapivě je rozdělení součtu dvou normálně distribuované nezávislé variace $ X $ a $ Y $ s prostředky a v ariance $ (\ mu_X, \ sigma_X ^ 2) $ a $ (\ mu_Y, \ sigma_Y ^ 2) $ je další normální distribuce

$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$

což má průměr

$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$

a rozptyl

$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$

Pro vaše data:

  • součet: 10,358 MWh
  • variance: 647,564
  • standardní odchylka: 804.71 ( sqrt(647564) )

zde zadejte popis obrázku

Takže k odpovědi na vaši otázku:

  • Jak „sečíst“ standardní odchylku ?
  • Sečtete je kvadraticky:

    s = sqrt(s1^2 + s2^2 + ... + s12^2) 

Koncepčně sečtete odchylky , potom použijte druhou odmocninu a získáte směrodatnou odchylku.


Protože jsem byl zvědavý, chtěl jsem znát průměrný měsíční průměrný výkon a jeho standardní odchylka . Indukcí potřebujeme 12 normálních distribucí, které:

  • součet na průměr 10,358
  • součet na rozptyl 647,564

To by bylo 12 průměrných měsíčních distribucí:

  • průměr 10,358/12 = 863.16
  • rozptyl 647,564/12 = 53,963.6
  • standardní odchylka sqrt(53963.6) = 232.3

zde zadejte popis obrázku

Můžeme zkontrolovat průměrné měsíční distribuce tak, že je přidáme 12krát, abychom zjistili, že rovná se roční distribuci:

  • Průměr: 863.16*12 = 10358 = 10,358 ( správné )
  • Odchylka: 53963.6*12 = 647564 = 647,564 ( správné )

Poznámka : Nechám na někoho, kdo má znalosti esoterické latexové matematiky, aby převedl mé vzorce a formula code do vzorců ve formátu stackexchange.

Upravit : Přesunul jsem zkratku na bod, odpověď nahoru. Protože jsem to dnes potřeboval udělat znovu, ale chtěl jsem znovu zkontrolovat, že průměruji odchylky .

Komentáře

  • Zdá se, že to vše předpokládá, že měsíce spolu nesouvisí – vyjádřili jste tento předpoklad kdekoli? Proč také musíme zavést normální rozdělení? Pokud ‚ mluvíme pouze o rozptylu, pak se to zdá zbytečné – viz moje odpověď zde
  • @Marco Protože si myslím, že na obrázcích je to lepší a vše usnadňuje pochopení.
  • @Marco Také věřím, že tato otázka začala na (nyní zaniklém) webu stats.stackexchange. stěna vzorců je méně přístupná než jednodušší, grafické a méně přísné zacházení.
  • Pochybuji, že je to správné. Představte si dva soubory dat, z nichž každý má pouze jedno měření. Jejich rozptyl každé sady je 0, ale sada obou měření má rozptyl větší než 0, pokud se datové body liší.
  • @Njol, myslím, že ‚ proč předpokládáme, že všechny proměnné mají normální rozdělení. A můžeme to udělat tady, protože mluvíme o phisickém měření. Ve vašem příkladu nejsou obě proměnné normálně distribuovány.

Odpověď

Toto je stará otázka, ale odpověď přijata není ve skutečnosti správný nebo úplný. Uživatel chce vypočítat směrodatnou odchylku za 12měsíční data, přičemž průměr a směrodatná odchylka se již počítají za každý měsíc. Za předpokladu, že počet vzorků v každém měsíci je stejný, je možné z dat každého měsíce vypočítat průměr a rozptyl vzorku v průběhu roku. Pro zjednodušení předpokládejme, že máme dvě sady dat:

$ X = \ {x_1, …. x_N \} $

$ Y = \ {y_1, …., y_N \} $

se známými hodnotami střední hodnoty vzorku a rozptylu vzorku, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .

Nyní chceme vypočítat stejné odhady pro

$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .

Zvažte, že $ \ mu_x $ , $ \ sigma ^ 2_x $ se počítají jako:

$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $

$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $

Abychom mohli odhadnout průměr a rozptyl nad celkovou množinou, musíme vypočítat:

$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ , která je uvedena v přijaté odpovědi. Pro variance je však příběh jiný:

$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $

$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $

$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $

Takže pokud máte rozptyl u každé podmnožiny a chcete odchylku u celé množiny, můžete průměrovat odchylky každé podmnožiny, pokud mají všechny stejný průměr. V opačném případě musíte přidat odchylku průměru každé podskupiny.

Řekněme, že v první polovině roku vyrobíme přesně 1 000 MWh za den a v sekundách polovinu vyrobíme 2 000 MWh za den. Pak průměr a rozptyl výroby energie v první a polovina vteřiny je 1 000 a 2 000 pro průměr a odchylka je 0 pro obě poloviny. Nyní nás mohou zajímat dvě různé věci:

1- Chceme vypočítat rozptyl výroby energie za celý rok : pak zprůměrováním těchto dvou rozptylů dospějeme k nule, což není správné, protože energie za den za celý rok není konstantní. V tomto případě musíme přidat rozptyl všech průměrů z každé podmnožiny. Matematicky v tomto případě je náhodnou proměnnou, která nás zajímá, výroba energie za den. Máme statistiku vzorků přes podmnožiny a chceme vzorek vypočítat statistiky za delší dobu.

2- Chceme vypočítat rozptyl výroby energie za rok: Jinými slovy nás zajímá, jak moc se výroba energie mění z jednoho roku na druhý. V tomto případě vede průměrování rozptylu ke správné odpovědi, která je 0, protože v každém roce produkujeme v průměru přesně 1 500 MHW. Matematicky je v tomto případě náhodná proměnná zájmu průměrná produkce energie za den, kde se průměruje za celý rok.

Komentáře

  • Pěkná odpověď. Podle mého názoru to, jak to vypočítat, závisí na tom, jak chcete prezentovat výsledný SD (a jakou hypotézu chcete pomocí tohoto SD vyjádřit, pokud se pokoušíte porovnat s jinou větrnou farmou atd.).

Odpověď

Chtěl bych znovu zdůraznit nesprávnost části přijaté odpovědi. Znění otázky vede ke zmatku.

Otázka má průměr a StdDev každého měsíce, ale není jasné, jaký druh podmnožiny se používá. Je to průměr 1 větrné turbíny celé farmy nebo denní průměr celé farmy? Pokud je to denní průměr za každý měsíc, nemůžete sečíst měsíční průměr a získat roční průměr, protože nemají stejného jmenovatele. Pokud jde o průměr jednotky, otázka by měla uvádět

Můžeme říci, že v průměrném roce každá turbína ve větrné farmě produkuje 10 358 MWh, …

Místo

Lze říci, že v průměrném roce vyprodukuje větrná farma 10 358 MWh, …

Dále, Standardní odchylka nebo odchylka je srovnání s vlastním průměrem souboru. Neobsahuje žádné informace týkající se průměru jeho nadřazené množiny (větší množina, jejíž součástí je vypočítaná množina).

Vizualizace odchylek

Obrázek nemusí být nutně příliš přesný, ale vyjadřuje obecnou myšlenku. Představme si výstup jedné větrné farmy jako na obrázku. Jak vidíte, “ lokální “ varianta nemá co dělejte s “ globální “ variantou, bez ohledu na to, jak je přidáte nebo znásobíte. Pokud přidáte “ místní “ rozdíly společně, bude to velmi malé v porovnání s “ globální “ rozptyl. Nelze předpovědět rozptyl roku pomocí rozptylu 2 půl roku. Takže v přijaté odpovědi je výpočet součtu správný, dělení 12 pro získání měsíčního čísla nic neznamená. . Ze tří částí je první a poslední část špatná, druhá má pravdu.

Opět platí, že „je velmi nesprávná aplikace, prosím, nesledujte ji, jinak se dostanete do problémů. Stačí spočítat celou věc a použít celkový roční / měsíční výstup každé jednotky jako datové body podle toho, zda chcete roční nebo měsíční počet, to by měla být správná odpověď. Pravděpodobně chcete něco takového. Toto jsou moje náhodně vygenerovaná čísla. Pokud máte data, výsledkem v buňce O2 by měla být vaše odpověď.

zde zadejte popis obrázku

Komentáře

  • Velice vám děkuji za obrázek, který mi hodně pomohl pochopit, proč je přijatá odpověď neúplná a může dokonce se mýlit. Vysvětlili jste to velmi dobře, děkuji!
  • To ukazuje nebezpečí hlasování. Lidé, kteří hlasují, jsou lidé, kteří neznají ‚ odpověď. Na rozdíl od kódování platí, že lidé, kteří volí, jsou lidé, kteří kód aktivují, čím více hlasů, tím lepší odpověď.Pro statistiku / matematiku znamená více hlasů pouze ‚ přitažlivější.

Odpovědět

TL; DR

Vzhledem k tomu, že několik dní a každý den dostáváme jeho průměr, Sample StdDev a počet Samplů, označený jako: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Chtěli bychom vypočítat průměr a Sample StdDev za všechny dny.

Průměr je jednoduše vážený průměr: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$

Ukázka StdDev je tato věc: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Kde dolní index d označuje den, který jsme shromáždili Průměr, Sample StdDev a počet vzorků za.

Podrobnosti

Měli jsme podobný problém, ve kterém jsme měli proces, který počítá denní průměr a Ukázka StdDev a uložení vedle počtu denních vzorků. Pomocí tohoto vstupu jsme museli vypočítat týdenní / měsíční průměr a StdDev. Počet vzorků za den nebyl v našem případě konstantní.

Označte průměr, vzorek StdDev a počet vzorků celé sady jako: $$ \ mu, \ \ sigma \ a \ N \ $$ a pro den d označuje průměr, Sample StdDev a počet vzorků jako: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Výpočet průměru celé sady je jednoduše aa Vážený průměr dní „Dotčené průměry: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Ale když vezmeme v úvahu Sample StdDev, jde o věci mnohem více. Na jeden den máme StdDev: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Nejprve trochu vyčištění: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Pojďme se podívat na pravý výraz výše uvedené rovnice. Pokud dokážeme dosáhnout z této částky na následující částku za den: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ , pak součet přes dny nám dají to, co hledáme, protože dny jsou disjunktní a pokrývají celou sadu: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ Náhledem, který lze získat z denního StdDev do celé sady StdDev, je všimnout si, že i když nebudeme mít denní vzorky, máme součet denních vzorků přes denní průměr . Vzhledem k tomuto přehledu pojďme pracovat na pravém termínu výše uvedené rovnice: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ V tomto okamžiku jsme neudělali nic jiného, než sčítání a odčítání výrazů, které vynulovaly udržení rovnice stejné. Nyní, když sečteme přes N d u všech součtů, přepišme souhrny pro zábavu a zisk: $$ \ require {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ Součty skončily j , takže součtové výrazy, které nezávisí na j, lze jednoduše vynásobit N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ A blížíme se: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Nyní pojďme s výrazem zcela vpravo, jak můžeme, nepoužívat x j přímo, ale můžeme použít jeho součet, protože máme průměr toho dne. Jednoduše vynásobte a vydělte N d a získejte průměr: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ V tomto okamžiku máme součet, který potřebujeme vypočítat celá sada Sample StdDev a všechny ostatní termíny jsou veličiny, které známe, jmenovitě statistiky dne a počet vzorků.Pojďme to znovu připojit k výše uvedenému kroku čištění: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Nyní jsme připraveni vypočítat ukázkový soubor StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$

Komentáře

  • Váš zápis je pro mě trochu matoucí, protože nevysvětluje ‚ co znamená, že & jsou známé (předpokládané) standardní odchylky parametry & což jsou odhady vzorků.
  • Známé jsou Nd, Mu-d, Sigma-d, musíme vypočítat N, Mu, Sigma. Výpočet N a Mu je triviální, Sigma je zapojená ..

Odpověď

Věřím, co můžete opravdu vás zajímá standardní chyba , nikoli standardní odchylka.

Standardní chyba průměru (SEM) je standardní odchylka odhadu průměrné populace podle průměrné hodnoty vzorku, která vám dá měřítko, jak dobrý je váš roční odhad MWh.

Je velmi snadné ji vypočítat: pokud jste použili $ n $ vzorky k získání vašich měsíčních průměrů MWh a směrodatných odchylek, stačí vypočítat směrodatnou odchylku podle návrhu @IanBoyd a normalizovat ji podle celkové velikosti vašeho vzorku. To znamená,

$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ krát n}} $$

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *