Ho una media mensile per un valore e una deviazione standard corrispondente a tale media. Ora sto calcolando la media annuale come la somma delle medie mensili, come posso rappresentare la deviazione standard per la media sommata?
Ad esempio considerando loutput di un parco eolico:
Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250
Possiamo dire che nellanno medio il parco eolico produce 10.358 MWh, ma qual è la deviazione standard corrispondente a questo dato?
Commenti
- Una discussione a seguito di una risposta ora cancellata ha rilevato una possibile ambiguità in questa domanda: cerchi la SD delle medie mensili o vuoi recuperare la SD di tutti i valori originali da cui sono state costruite quelle medie? Quella risposta ha anche correttamente indicato che se si desidera questultima, sarà necessario il numero di valori coinvolti in ciascuna delle medie mensili.
- Un commento a unaltra risposta eliminata ha sottolineato che è strano calcolare una media come somma : sicuramente vuoi dire che stai media le medie mensili. Ma se quello che vuoi è stimare la media di tutti i dati originali, allora una tale procedura di solito non è buona: è necessaria una media ponderata . E ovviamente ‘ non è possibile dare una buona risposta alla tua domanda sulla ” SD per la ” fino a quando non è chiaro che cosa è la ” media sommata della ” e che cosa intende rappresentare. Per favore chiariscilo per noi.
- @whuber ho aggiunto un esempio per chiarire. Matematicamente credo che la somma delle medie sia uguale alla media mensile per 12.
- Sì, klonq, questa è una richiesta molto ragionevole. Tuttavia, queste risposte sono state eliminate dal proprietario, non dalla comunità. Per preservare il loro valore, ho tentato qui di trasmettere (la mia opinione) le idee chiave che emergono in quelle risposte e nei loro commenti. A proposito, le tue modifiche recenti sono molto utili: alle persone piace vedere dati di esempio.
- Sicuramente fare la media della varianza e quindi calcolare la deviazione standard media può ‘ t essere il risposta intera! Tutto ciò rappresenta la varianza media nella misurazione della potenza erogata ENTRO un solo mese. Questo è un buon inizio per ottenere una misura accurata dellerrore di misurazione, ma ‘ questa deviazione standard di 232 non deve essere combinata in qualche modo con la variazione INTERMENSILE della potenza in uscita. cioè penso che la deviazione standard finale risultante per la media generale dovrebbe essere leggermente superiore a 232 se si tiene conto dellerrore combinato nella misurazione di entrambi entro ogni mese e di BET
Risposta
Risposta breve: fai la media delle varianze ; quindi puoi prendere la radice quadrata per ottenere la deviazione standard .
Esempio
Month MWh StdDev Variance ========== ===== ====== ======== January 927 333 110889 February 1234 250 62500 March 1032 301 90601 April 876 204 41616 May 865 165 27225 June 750 263 69169 July 780 280 78400 August 690 98 9604 September 730 76 5776 October 821 240 57600 November 803 178 31684 December 850 250 62500 =========== ===== ======= ======= Total 10358 647564 ÷12 863 232 53964
Quindi la deviazione standard media è sqrt(53,964) = 232
Da Somma di variabili casuali normalmente distribuite :
Se $ X $ e $ Y $ sono variabili casuali indipendenti che sono normalmente distribuite (e quindi anche congiuntamente), anche la loro somma è distribuita normalmente
… la somma di due indipendenti normalmente le variabili casuali distribuite sono normali, poiché la sua media è la somma delle due medie e la sua varianza è la somma delle due varianze
E da Wolfram Alpha “s Distribuzione della somma normale :
Sorprendentemente, la distribuzione di una somma di due variabili indipendenti normalmente distribuite $ X $ e $ Y $ con mezzi e v ariances $ (\ mu_X, \ sigma_X ^ 2) $ e $ (\ mu_Y, \ sigma_Y ^ 2) $, rispettivamente è unaltra distribuzione normale
$$ P_ {X + Y} (u) = \ frac {1} {\ sqrt {2 \ pi (\ sigma_X ^ 2 + \ sigma_Y ^ 2)}} e ^ {- [u – (\ mu_X + \ mu_Y)] ^ 2 / [2 (\ sigma_X ^ 2 + \ sigma_Y ^ 2)]} $$
che ha media
$$ \ mu_ {X + Y} = \ mu_X + \ mu_Y $$
e varianza
$$ \ sigma_ {X + Y} ^ 2 = \ sigma_X ^ 2 + \ sigma_Y ^ 2 $$
Per i tuoi dati:
- somma:
10,358 MWh
- varianza:
647,564
- deviazione standard:
804.71 ( sqrt(647564) )
Quindi, per rispondere alla tua domanda:
- Come “sommare” una deviazione standard ?
-
Sommali quadraticamente:
s = sqrt(s1^2 + s2^2 + ... + s12^2)
Concettualmente sommi le varianze , quindi calcola la radice quadrata per ottenere la deviazione standard.
Poiché ero curioso, volevo conoscere la potenza mean media mensile e la sua deviazione standard . Attraverso linduzione, abbiamo bisogno di 12 distribuzioni normali che:
- somma a una media di
10,358
- somma a una varianza di
647,564
Ciò equivale a 12 distribuzioni mensili medie di:
- media di
10,358/12 = 863.16
- varianza della
647,564/12 = 53,963.6
- deviazione standard della
sqrt(53963.6) = 232.3
Possiamo controllare le nostre distribuzioni medie mensili sommandole 12 volte, per vedere che uguale alla distribuzione annuale:
- Media:
863.16*12 = 10358 = 10,358
( corretta ) - Varianza:
53963.6*12 = 647564 = 647,564
( corretto )
Nota : lascerò che qualcuno con una conoscenza della matematica esoterica del Latex converta le immagini delle mie formule e
formula code
in stackexchange formule formattate.
Modifica : ho spostato labbreviazione in il punto, rispondi in alto. Perché avevo bisogno di farlo di nuovo oggi, ma volevo ricontrollare che io media le varianze .
Commenti
- Tutto questo sembra presupporre che i mesi non siano correlati – hai reso esplicito questo assunto da qualche parte? Inoltre, perché dobbiamo introdurre la distribuzione normale? Se ‘ stiamo parlando solo di varianza, non sembra necessario, ad esempio, vedi la mia risposta qui
- @Marco Perché penso meglio nelle immagini e rende tutto più facile da capire.
- @Marco Inoltre, credo che questa domanda sia iniziata sul sito (ora defunto) stats.stackexchange. Un muro di formule è meno accessibile di trattamenti più semplici, grafici e meno rigorosi.
- Dubito che sia corretto. Immagina due set di dati con ciascuna una sola misurazione ciascuno. La loro varianza di ciascun set è 0, ma linsieme di entrambe le misurazioni ha una varianza maggiore di 0 se i punti dati differiscono.
- @Njol, penso che ‘ Ecco perché assumiamo che tutte le variabili abbiano una distribuzione normale. E possiamo farlo qui, perché parliamo di misurazione fisica. Nel tuo esempio entrambe le variabili non sono distribuite normalmente.
Risposta
Questa è una vecchia domanda ma la risposta è stata accettata non è effettivamente corretto o completo. Lutente desidera calcolare la deviazione standard sui dati di 12 mesi in cui la media e la deviazione standard sono già calcolate su ogni mese. Supponendo che il numero di campioni in ogni mese sia lo stesso, è possibile calcolare la media e la varianza del campione nel corso dellanno dai dati di ogni mese. Per semplicità si supponga di avere due set di dati:
$ X = \ {x_1, …. x_N \} $
$ Y = \ {y_1, …., y_N \} $
con valori noti di media campionaria e varianza campionaria, $ \ mu_x $ , $ \ mu_y $ , $ \ sigma ^ 2_x $ , $ \ sigma ^ 2_y $ .
Ora vogliamo calcolare le stesse stime per
$ Z = \ {x_1, …., x_N, y_1, …, y_N \} $ .
Considera che $ \ mu_x $ , $ \ sigma ^ 2_x $ sono calcolati come:
$ \ mu_x = \ frac {\ sum ^ N_ {i = 1} x_i} {N} $
$ \ sigma ^ 2_x = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x $
Per stimare media e varianza sullinsieme totale dobbiamo calcolare:
$ \ mu_z = \ frac {\ sum ^ N_ {i = 1} x_i + \ sum ^ N_ {i = 1} y_i} {2N} = (\ mu_x + \ mu_y) / 2 $ che viene fornito nella risposta accettata. Tuttavia, per la varianza la storia è diversa:
$ \ sigma ^ 2_z = \ frac {\ sum ^ N_ {i = 1} x ^ 2_i + \ sum ^ N_ {i = 1} y ^ 2_i} {2N} – \ mu ^ 2_z $
$ \ sigma ^ 2_z = \ frac {1 } {2} (\ frac {\ sum ^ N_ {i = 1} x ^ 2_i} {N} – \ mu ^ 2_x + \ frac {\ sum ^ N_ {i = 1} y ^ 2_i} {N} – \ mu ^ 2_y) + \ frac {1} {2} (\ mu ^ 2_x + \ mu ^ 2_y) – (\ frac {\ mu_x + \ mu_y} {2}) ^ 2 $
$ \ sigma ^ 2_z = \ frac {1} {2} (\ sigma ^ 2_x + \ sigma ^ 2_y) + (\ frac {\ mu_x- \ mu_y} {2} ) ^ 2 $
Quindi, se hai la varianza su ogni sottoinsieme e vuoi la varianza sullintero insieme, puoi fare la media delle varianze di ogni sottoinsieme se hanno tutti la stessa media. Altrimenti, è necessario aggiungere la varianza della media di ogni sottoinsieme.
Supponiamo che nella prima metà dellanno produciamo esattamente 1000 MWh al giorno e nella seconda metà produciamo 2000 MWh al giorno. Quindi la media e la varianza della produzione di energia in prima e la metà dei secondi è 1000 e 2000 per la media e la varianza è 0 per entrambe le metà. Ora ci sono due cose diverse che potrebbero interessarci:
1- Vogliamo calcolare la varianza della produzione di energia durante tutto lanno : quindi facendo la media delle due varianze arriviamo a zero, che non è corretto dato che lenergia giornaliera su tutto il totale anno non è costante. In questo caso dobbiamo aggiungere la varianza di tutte le medie di ciascun sottoinsieme. Matematicamente in questo caso la variabile casuale di interesse è la produzione di energia al giorno. Abbiamo statistiche campionarie su sottoinsiemi e vogliamo calcolare il campione statistiche su un periodo più lungo.
2- Vogliamo calcolare la varianza della produzione di energia allanno: In altre parole, ci interessa quanto cambia la produzione di energia da un anno allaltro. In questo caso la media della varianza porta alla risposta corretta che è 0, poiché in ogni anno produciamo in media esattamente 1500 MHW. Matematicamente in questo caso la variabile aleatoria di interesse è la media della produzione di energia al giorno dove la media viene fatta su tutto lanno.
Commenti
- Bella risposta. Secondo me, come calcolarlo dipende da come si vuole presentare la SD risultante (e quale ipotesi si vuole affrontare utilizzando questa SD, se si sta provando a confrontarla con un altro parco eolico ecc.).
Risposta
Vorrei “sottolineare nuovamente linesattezza in parte della risposta accettata. La formulazione della domanda crea confusione.
La domanda ha Average e StdDev di ogni mese, ma non è chiaro quale tipo di sottoinsieme venga utilizzato. È la media di 1 turbina eolica dellintera azienda o la media giornaliera dellintera azienda? Se è la media giornaliera di ogni mese, non puoi sommare la media mensile per ottenere la media annuale perché non hanno lo stesso denominatore. Se è la media unitaria, la domanda dovrebbe indicare
Possiamo dire che nellanno medio ogni turbina in il parco eolico produce 10.358 MWh, …
Invece di
Possiamo dire che nellanno medio il parco eolico produce 10.358 MWh, …
Inoltre, La deviazione standard o varianza è il confronto con la media dellinsieme. NON contiene alcuna informazione riguardante la media del suo insieme genitore (linsieme più grande di cui linsieme calcolato è un componente).
Limmagine non è necessariamente molto precisa, ma trasmette lidea generale. Immaginiamo loutput di un parco eolico come nellimmagine. Come puoi vedere, la varianza ” local ” non ha nulla da fare con la varianza ” globale “, indipendentemente da come le si somma o si moltiplica. Se si aggiunge la ” local ” insieme, sarà molto piccola rispetto alla ” globale ” varianza. Non è possibile prevedere la varianza dellanno utilizzando la varianza di 2 semestre. Pertanto, nella risposta accettata, mentre il calcolo della somma è corretto, la divisione per 12 per ottenere il numero mensile non significa nulla. . Delle tre sezioni, la prima e lultima sono sbagliate, la seconda è giusta.
Di nuovo, è “è unapplicazione molto sbagliata, per favore non seguitela o vi metterà nei guai. Calcola il tutto, utilizzando la produzione annuale / mensile totale di ciascuna unità come punti dati a seconda che tu voglia un numero annuale o mensile, questa dovrebbe essere la risposta corretta. Probabilmente vuoi qualcosa di simile. Questi sono i miei numeri generati casualmente. Se disponi dei dati, il risultato nella cella O2 dovrebbe essere la tua risposta.
Commenti
- Grazie mille per limmagine che mi ha aiutato molto a capire perché la risposta accettata è incompleta e potrebbe essere anche sbagliato. Lhai spiegato molto bene, grazie!
- Questo mostra il pericolo di votare. Le persone che votano sono le persone che ‘ non conoscono la risposta. Al contrario della codifica, le persone che votano sono le persone che fanno funzionare il codice, più voti, migliore è la risposta.Per statistica / matematica, più voti significa solo che ‘ è più interessante.
Risposta
TL; DR
Dati diversi giorni e per ogni giorno ci viene fornita la sua media, Sample StdDev e il numero di campioni, indicati come: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Vorremmo calcolare la media e il valore standard di esempio per tutti i giorni.
La media è semplicemente una media ponderata: $$ \ mu = \ frac {\ sum {\ mu_dN_d}} {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$
Esempio StdDev è questa cosa: $$ \ sigma = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2})} {N-1}} $$ Dove subscript d indica un giorno per cui abbiamo raccolto la media, lo standard dev e il numero di campioni.
Dettagli
Abbiamo avuto un problema simile in cui abbiamo avuto un processo che calcola una media giornaliera e Campiona StdDev e salva accanto al numero di campioni giornalieri. Usando questo input abbiamo dovuto calcolare una media settimanale / mensile e StdDev. Il numero di campioni al giorno non era costante nel nostro caso.
Indica la media, Sample StdDev e il numero di campioni dellintero set come: $$ \ mu, \ \ sigma \ e \ N \ $$ e per il giorno d indica la media, il dev standard di esempio e il numero di campioni come: $$ \ mu_d, \ \ sigma_d, \ N_d $$ Il calcolo della media dellintero set è semplicemente una media ponderata dei giorni in questione: $$ \ mu = \ frac {\ sum {\ mu_dN_d} } {\ sum {N_d}} = \ frac {\ sum {\ mu_dN_d}} {N} $$ Ma le cose sono molto più complicate quando si considera Sample StdDev. Per un giorno “s Sample StdDev abbiamo: $$ \ sigma_d = \ sqrt {\ frac {\ sum_ {N_d} (x_j- \ mu_d) ^ 2} {N_d-1} } $$ Prima un po di pulizia: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} (x_j- \ mu_d) ^ 2 $ $ Guardiamo il termine a destra dellequazione sopra. Se possiamo raggiungere da questa somma alla seguente somma al giorno: $$ \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ allora sommare i giorni ci daranno quello che stiamo cercando poiché i giorni sono disgiunti e coprono lintero set: $$ \ sum_ {d} {\ sum_ {N_d} {(x_j- \ mu ) ^ 2}} = \ sum_ {N} {(x_j- \ mu) ^ 2} $$ Lintuizione per ottenere dallo StdDev giornaliero allintero set “s StdDev è notare che mentre noi non abbiamo i campioni giornalieri, abbiamo la somma dei campioni giornalieri attraverso la media giornaliera . Data questa intuizione, lavoriamo sul termine a destra dellequazione precedente: $$ \ sum_ {N_d} (x_j- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} = \\ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu_d + \ mu_d ^ 2)} + (\ sum_ {N_d} {\ mu ^ 2} – \ sum_ {N_d} {\ mu ^ 2}) + (2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) – 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d}) ) $$ A questo punto non abbiamo fatto altro che aggiungere e sottrarre termini che azzereranno mantenendo lequazione la stessa. Ora poiché sommiamo N d su tutte le sommazioni, riscriviamo “s somme per divertimento e profitto: $$ \ require {cancel} = \ sum_ {N_d} {(x_j ^ 2-2x_j (\ cancel {\ mu_d} + \ mu- \ cancel { \ mu_d}) + \ mu ^ 2)} + \ sum_ {N_d} {\ mu_d ^ 2} – \ sum_ {N_d} {\ mu ^ 2} +2 \ sum_ {N_d} {x_j (\ mu- \ mu_d }) $$ Le somme sono superiori a j quindi i termini di sommatoria che non dipendono da j possono essere semplicemente moltiplicati per N d : $$ = \ sum_ {N_d} {(x_j ^ 2-2x_j \ mu + \ mu ^ 2)} + N_d \ mu_d ^ 2- N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ E ci stiamo avvicinando: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 \ sum_ {N_d} {x_j (\ mu- \ mu_d)} $$ Ora gestiamo il termine più a destra perché “non possiamo usare x j direttamente ma possiamo usare la sua somma dato che abbiamo la media di quel giorno. Basta moltiplicare e dividere per N d per ottenere la media: $$ = \ sum_ {N_d} {(x_j- \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} (\ frac {1} {N_d} \ sum_ {N_d} {x_j}) \\ = \ sum_ {N_d} {(x_j – \ mu) ^ 2} + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d $$ A questo punto abbiamo la somma che dobbiamo calcolare lintero set “s Sample StdDev e tutti gli altri termini sono quantità che conosciamo, vale a dire le statistiche del giorno e il numero di campioni.Ricollegalo al passaggio di pulizia precedente: $$ \ sigma_d ^ 2 (N_d-1) = \ sum_ {N_d} {(x_j- \ mu) ^ 2 } + N_d \ mu_d ^ 2-N_d \ mu ^ 2 + 2 (\ mu- \ mu_d) {N_d} \ mu_d \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) -N_d \ mu_d ^ 2 + N_d \ mu ^ 2-2N_d \ mu_d (\ mu- \ mu_d) = \ sum_ {N_d} {(x_j- \ mu) ^ 2} \\ \ leftrightarrow \ \ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d) ^ 2 = \ sum_ {N_d} {(x_j- \ mu) ^ 2} $$ Ora siamo pronti per calcolare il set “s Sample StdDev: $$ \ sigma = \ sqrt {\ frac {\ sum_ {N} (x_j- \ mu) ^ 2} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {\ sum_ {N_d } (x_j- \ mu) ^ 2}} {N-1}} \\ = \ sqrt {\ frac {\ sum_ {d} {(\ sigma_d ^ 2 (N_d-1) + N_d (\ mu- \ mu_d ) ^ 2})} {N-1}} $$
Commenti
- La tua notazione mi confonde un po perché ‘ t chiarisce che significa & deviazioni standard sono parametri noti (presunti) & che sono stime di esempio.
- Le note sono Nd, Mu-d, Sigma-d, dobbiamo calcolare N, Mu, Sigma. Calcolare N e Mu è banale, Sigma è quello coinvolto ..
Risposta
Credo che tu essere veramente interessato però è l errore standard piuttosto che la deviazione standard.
Lerrore standard della media (SEM) è lo standard deviazione della stima della media campionaria di una media della popolazione, e questo ti darà una misura di quanto sia buona la tua stima annuale MWh.
È molto facile da calcolare: se hai usato $ n $ campioni per ottenere le medie mensili MWh e le deviazioni standard, dovresti semplicemente calcolare la deviazione standard come suggerito da @IanBoyd e normalizzarla in base alla dimensione totale del tuo campione. Cioè,
$$ s = \ frac {\ sqrt {s_1 ^ 2 + s_2 ^ 2 + \ ldots + s_ {12} ^ 2}} {\ sqrt {12 \ times n}} $$