Che cosa significa effettivamente la varianza aggregata “ ”?

Sono un noob in statistica, quindi potreste aiutarmi qui per favore.

La mia domanda è la seguente: cosa fa varianza aggregata effettivamente significa?

Quando cerco una formula per la varianza aggregata in Internet, trovo molta letteratura che utilizza la seguente formula (ad esempio, qui: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

\ begin {equation} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {equation}

Ma cosa fa effettivamente calcolare? Perché quando uso questa formula per calcolare la mia varianza aggregata, mi dà una risposta sbagliata.

Ad esempio, considera questi “campione genitore”:

\ begin {equation} \ label { eq: genitori campione} 2,2,2,2,2,8,8,8,8,8 \ end {equation}

La varianza di questo campione genitore è $ S ^ 2_p = 10 $, e la sua media è $ \ bar {x} _p = 5 $.

Ora, supponiamo di dividere questo campione genitore in due sotto-campioni:

  1. Il primo sotto-campione è 2,2,2,2,2 con media $ \ bar {x} _1 = 2 $ e varianza $ S ^ 2_1 = 0 $.
  2. Il secondo sottocampione è 8,8,8,8,8,8 con media $ \ bar {x} _2 = 8 $ e varianza $ S ^ 2_2 = 0 $.

Ora, chiaramente, utilizzando la formula precedente per calcolare la varianza aggregata / genitore di questi due sottocampioni produrrà zero, perché $ S_1 = 0 $ e $ S_2 = 0 $. Quindi cosa calcola effettivamente questa formula?

Daltra parte, dopo una lunga derivazione, ho scoperto che la formula che produce la varianza pool / genitore corretta è:

\ begin {equation} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {equation}

Nella formula sopra, $ d_1 = \ bar {x_1} – \ bar {x} _p $ e $ d_2 = \ bar {x_2 } – \ bar {x} _p $.

Ho trovato una formula simile alla mia, ad esempio qui: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html e anche in Wikipedia. Anche se devo ammettere che non sono esattamente uguali ai miei.

Quindi, di nuovo, cosa significa effettivamente varianza aggregata? Non dovrebbe significare la varianza del campione genitore dai due sottocampioni ? O mi sbaglio completamente qui?

Grazie in anticipo.


EDIT 1: Qualcuno dice che i miei due sottocampioni sopra sono patologici poiché hanno varianza zero. Bene, potrei darti un esempio diverso. Considera questo esempio genitore:

\ begin {equation} \ label {eq: parentample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}

La varianza di questo campione genitore è $ S ^ 2_p = 564,7 $ e la sua media è $ \ bar {x} _p = 25,5 $.

Ora, supponiamo di dividere questo campione genitore in due sotto-campioni:

  1. Il primo sotto-campione è 1,2,3,4,5 con media $ \ barra {x} _1 = 3 $ e varianza $ S ^ 2_1 = 2,5 $.
  2. Il secondo sottocampione è 46,47,48,49,50 con media $ \ bar {x} _2 = 48 $ e varianza $ S ^ 2_2 = 2,5 $.

Ora, se usi la “formula della letteratura” per calcolare la varianza aggregata, otterrai 2,5, che è completamente sbagliato, perché la varianza genitore / aggregata dovrebbe essere 564,7. Invece, se usi “la mia formula”, otterrai una risposta corretta.

Per favore, capisci, qui uso esempi estremi per mostrare alle persone che la formula è davvero sbagliata. Se utilizzo “dati normali” che “non hanno molte variazioni (casi estremi), i risultati di queste due formule saranno molto simili e le persone potrebbero ignorare la differenza a causa di un errore di arrotondamento, non perché la formula stessa sia sbagliato.

Commenti

Risposta

In parole povere, la varianza aggregata è una stima (non distorta) della varianza allinterno di ciascun campione, sotto lipotesi / vincolo che tali varianze siano uguali.

Questo è spiegato, motivato e analizzato in dettaglio nella voce di Wikipedia per la varianza aggregata .

Lo fa non stimare la varianza di un nuovo” meta-campione “formato concatenando i due campioni individuali, come hai supposto. Come hai già scoperto, la stima richiede una formula completamente diversa.

Commenti

  • Il presupposto di ” uguaglianza ” (ovvero, la stessa popolazione ha realizzato quei campioni) non è necessario in generale per definire cosa sia – ” raggruppato “. Raggruppato significa semplicemente mediato, omnibus (vedi il mio commento a Tim).
  • @ttnphns Penso che lassunzione di uguaglianza sia necessaria per dare alla varianza aggregata un significato concettuale (che lOP ha chiesto) che vada oltre solo verbalmente descrivere loperazione matematica che esegue sulle varianze campionarie. Se le varianze della popolazione non sono considerate uguali, allora ‘ non è chiaro di cosa potremmo considerare la varianza aggregata come una stima. Ovviamente, potremmo pensarlo semplicemente come una fusione delle due varianze e lasciarlo così, ma questo ‘ è difficilmente illuminante in assenza di qualsiasi motivazione per voler combinare le variazioni in primo luogo.
  • Jake, io ‘ non sono in disaccordo con questo, data la domanda specifica dellOP, ma volevo parlare di definizione della parola ” raggruppata “, che ‘ è il motivo per cui ho detto, ” in generale “.
  • @JakeWestfall La tua risposta è la migliore finora. Grazie. Anche se non mi è ancora chiaro una cosa. Secondo Wikipedia, la varianza aggregata è un metodo per stimare la varianza di diverse popolazioni diverse quando la media di ciascuna popolazione può essere diversa , ma si può presumere che la varianza di ogni popolazione è la stessa .
  • @JakeWestfall: Quindi, se stiamo calcolando la varianza aggregata da due diverse popolazioni con mezzi diversi, cosa calcola effettivamente? Perché la prima varianza misura la variazione rispetto alla prima media, e la seconda varianza è rispetto alla seconda media. Non ‘ non so quali informazioni aggiuntive si possono ottenere calcolandole.

Risposta

La varianza aggregata viene utilizzata per combinare insieme le varianze di diversi campioni prendendo la loro media ponderata, per ottenere la varianza “complessiva”. Il problema con il tuo esempio è che si tratta di un caso patologico, poiché ciascuno dei sottocampioni ha varianza uguale a zero. Tale caso patologico ha molto poco in comune con i dati che di solito incontriamo, poiché cè sempre una certa variabilità e se non cè variabilità, non ci interessano tali variabili poiché non portano informazioni. È necessario notare che questo è un metodo molto semplice e ci sono modi più complicati per stimare la varianza nelle strutture di dati gerarchiche che non sono inclini a tali problemi.

Per quanto riguarda il tuo esempio nella modifica, mostra che è importante affermare chiaramente le tue ipotesi prima di iniziare lanalisi. Supponiamo che tu abbia $ n $ punti dati in $ k $ gruppi, lo indicheremo come $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, dove $ i $ -th indice in $ x_ {i, j} $ sta per casi e $ j $ -th indice sta per indici di gruppo. Ci sono diversi scenari possibili, puoi presumere che tutti i punti provengano dalla stessa distribuzione (per semplicità, supponiamo una distribuzione normale),

$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$

puoi presumere che ogni sottocampione abbia la sua media

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

o, la sua stessa varianza

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

oppure, ciascuno di essi ha i propri parametri distinti

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

A seconda delle tue ipotesi, un metodo particolare può, o potrebbe non essere adeguato per analizzare i dati.

Nel primo caso, non saresti interessato a stimare le varianze allinterno del gruppo, poiché presumeresti che siano tutte uguali. Tuttavia, se aggregassi la varianza globale dalle varianze del gruppo, otterrai lo stesso risultato delluso della varianza aggregata poiché la definizione di varianza è

$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$

e nello stimatore aggregato devi prima moltiplicarlo per $ n-1 $, poi sommare e infine dividere per $ n_1 + n_2 – 1 $.

Nel secondo caso, significa differire, ma hai una varianza comune. Questo esempio è il più vicino al tuo esempio nella modifica. In questo scenario, la varianza aggregata stimerebbe correttamente la varianza globale, mentre se la varianza stimata sullintero set di dati, si otterrebbero risultati errati, poiché non si tiene conto del fatto che i gruppi hanno mezzi diversi .

Nel terzo caso non ha senso stimare la varianza “globale” poiché si presume che ciascuno dei gruppi abbia la propria varianza.Potresti essere ancora interessato a ottenere la stima per lintera popolazione, ma in tal caso (a) calcolare le varianze individuali per gruppo e (b) calcolare la varianza globale dallintero set di dati, può darti risultati fuorvianti . Se hai a che fare con questo tipo di dati, dovresti pensare di utilizzare un modello più complicato che tenga conto della natura gerarchica dei dati.

Il quarto caso è il più estremo e abbastanza simile al precedente. In questo scenario, se si desidera stimare la media e la varianza globali, sarebbe necessario un modello diverso e un insieme di ipotesi diverso. In tal caso, presumeresti che i tuoi dati abbiano una struttura gerarchica e, oltre alle medie e alle varianze allinterno del gruppo, esiste una varianza comune di livello superiore, ad esempio assumendo il seguente modello

$$ \ inizia {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

dove ogni campione ha le proprie medie e varianze $ \ mu_j, \ sigma ^ 2_j $ che sono esse stesse attinte da distribuzioni comuni. In tal caso, usereste un modello gerarchico che prende in considerazione sia la variabilità di livello inferiore che quella di livello superiore. Per saperne di più su questo tipo di modelli, puoi consultare il libro Bayesian Data Analysis di Gelman et al. e il loro esempio di otto scuole . Questo è comunque un modello molto più complicato del semplice stimatore della varianza aggregato.

Commenti

  • Ho aggiornato la mia domanda con un esempio diverso. In questo caso, la risposta dalla ” letteratura ‘ s formula ” è ancora errata. Capisco che di solito abbiamo a che fare con ” dati normali ” dove non esistono casi estremi come il mio esempio sopra. Tuttavia, come matematici, ‘ non dovrebbe interessarti a quale formula è effettivamente corretta, invece di quale formula si applica in ” problema quotidiano / comune “? Se una formula è fondamentalmente sbagliata, dovrebbe essere scartata, specialmente se esiste unaltra formula che vale in tutti i casi, patologica o no.
  • Btw hai detto che ci sono modi più complicati di stimare la varianza. Potresti mostrarmi questi modi? Grazie
  • Tim, la varianza aggregata non è la varianza totale del ” campione combinato “. Nelle statistiche, ” raggruppato ” significa media ponderata (quando parliamo di quantità medie come varianze, pesi essendo gli n ‘ s) o semplicemente sommati (quando parliamo di somme come scatter, somme di quadrati) . Per favore, riconsidera la tua terminologia (scelta delle parole) nella risposta.
  • Anche se fuori dallargomento corrente, ecco una domanda interessante sul ” comune ” concetto di varianza. stats.stackexchange.com/q/208175/3277
  • Hanciong. Insisto sul fatto che ” raggruppa ” in generale e anche specificamente ” raggruppa varianza ” il concetto non necessita, in generale, di alcun presupposto come: i gruppi provengono da popolazioni con uguali varianze. Il pooling è semplicemente un blending (media ponderata o somma). È in ANOVA e circostanze simili che aggiungiamo questa ipotesi statistica.

Risposta

Il problema è se basta concatenare i campioni e stimarne la varianza “presumendo” che provengano dalla stessa distribuzione e quindi abbiano la stessa media. Ma in generale siamo interessati a diversi campioni con media diversa. Ha senso?

Risposta

Il caso duso della varianza aggregata è quando si hanno due campioni da distribuzioni che:

  • può avere mezzi diversi, ma
  • che ti aspetti abbia una varianza vera uguale.

Un esempio di ciò è una situazione in cui misuri la lunghezza del naso di Alice $ n $ volte per un campione e misuri la lunghezza del naso di Bob $ m $ volte per il secondo. È probabile che questi producano un mucchio di misurazioni diverse sulla scala dei millimetri, a causa di errori di misurazione. Ma ti aspetti che la varianza nellerrore di misurazione sia la stessa indipendentemente dal naso che misuri.

In questo caso, prendere la varianza aggregata ti darebbe una stima migliore della varianza nellerrore di misurazione piuttosto che prendere la varianza di un solo campione.

Commenti

  • Grazie per la tua risposta, ma ancora ‘ non capisco una cosa . I primi dati ti danno la varianza rispetto alla lunghezza del naso di Alice ‘, mentre i secondi ti danno la varianza rispetto a Bob ‘ s lunghezza del naso. Se stai calcolando una varianza aggregata da questi dati, cosa significa effettivamente? Poiché la prima varianza misura la variazione rispetto a Alice ‘ s, e la seconda rispetto a Bob ‘ s, quindi quali ulteriori informazioni che possiamo ottenere calcolando la loro varianza aggregata? Sono numeri completamente diversi.

Risposta

Attraverso la varianza aggregata non stiamo cercando di stimare la varianza di un campione più grande, utilizzando campioni più piccoli. Quindi, i due esempi che hai fornito non si riferiscono esattamente alla domanda.

La varianza aggregata è necessaria per ottenere una stima migliore della varianza della popolazione, da due campioni che sono stati presi a caso da quella popolazione e che risultano con stime di varianza diverse.

Ad esempio, stai cercando di misurare la varianza nelle abitudini di fumo degli uomini a Londra. Campioni due volte, 300 maschi di Londra. Finisci per ottenere due varianze (probabilmente un po diverse !). Ora poiché hai eseguito un campionamento casuale equo (meglio per le tue capacità! Poiché il campionamento casuale vero è quasi impossibile), hai tutti i diritti per dire che entrambe le varianze sono stime puntuali reali della varianza della popolazione (i maschi di Londra in questo caso).

Ma come è possibile? Cioè due diverse stime puntuali !! Quindi, andiamo avanti e troviamo una stima puntuale comune che è la varianza aggregata. Non è altro che la media ponderata di due stime puntuali, dove i pesi sono il grado di libertà associato a ciascun campione.

Spero che questo chiarisca.

Risposta

Anche se sono molto in ritardo nella conversazione, forse posso aggiungere qualcosa di utile:
Mi sembra che lOP vuole sapere perché (per cosa) avremmo bisogno di una stima della variabilità aggregata $ \ hat \ sigma_ {pooled} $ come media ponderata di due campioni (essere è varianza o deviazione standard).

Per quanto ne so, la pratica necessità principale di questo tipo di misura di dispersione nasce dal voler confrontare le medie di (sotto) gruppi: quindi se voglio confrontare la lunghezza media del naso per 1) persone che non hanno subito una terapia genica, 2) persone che hanno subito una terapia genica A e 3) persone sottoposte a terapia genica B.
Per poter confrontare meglio lammontare delle differenze medie di lunghezza (mm) divido la differenza media, ad esempio $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ dalla stima della variabilità (qui standard devi azione). A seconda della dimensione della radice quadrata della varianza aggregata (deviazione standard aggregata) possiamo giudicare meglio la dimensione della differenza di 2 mm tra questi gruppi (ad esempio, $ d = 2 mm / 0,5 mm = 4 $ vs. $ d = 2mm / 4mm = 0,5 $ – > La terapia genica A fa qualcosa alla lunghezza del naso? E se sì, quanto? Quando $ d = 4 $ o $ 2 \ pm 0,5 mm $ sembra esserci una ” stabile ” o ” coerente ” o ” big ” (rispetto alla variabilità) differenza tra le lunghezze medie del naso, quando $ d = 0.5 $ o $ 2 \ pm 4mm $ non sembra così tanto, relativamente parlando. In caso tutti i valori allinterno di entrambi i gruppi sono gli stessi e quindi non vi è alcuna variabilità Nei gruppi, $ d $ non verrebbe definito ma linterpretazione sarebbe $ 2 \ pm 0mm = 2mm $ esattamente).
Questa è lidea della dimensione delleffetto (introdotta per la prima volta in teoria da Neyman e Pearson per quanto ne so, ma in un tipo o nellaltro usata molto prima, vedi Stigler, 1986 , ad esempio).
Quello che sto facendo è confrontare la differenza media tra i gruppi con le differenze medie allinterno di quegli stessi gruppi, cioè la media ponderata delle varianze (deviazioni standard). Questo ha più senso che confrontare la differenza media tra (sotto) gruppi con la differenza media allinterno del gruppo ” intero “, perché , come tu (Hanciong) hai mostrato, la varianza (e la deviazione standard) dellintero gruppo contiene anche le differenze delle medie del gruppo.

La necessità teorica deriva dalla possibilità di utilizzare $ t $ -distribuzione per trovare la probabilità per la differenza media osservata o una più estrema, dato un valore atteso per la differenza media (valore p per es. Null-Hypothesis-Significance-Test , NHST, o test di ipotesi di Neyman-Pearson o test di ipotesi di Fisher, intervalli di confidenza ecc.): $ p (e \ ge e_ {osservato} | \ mu_e = 0) $ .
Per quanto ne so, il valore p ottenuto dalla $ t $ -distribution (e in particolare dal $ F $ -distribuzione nei casi con più di 2 mezzi per confrontare) fornirà stime corrette per la probabilità solo quando entrambi (o tutti) i campioni sono tratti da popolazioni con varianze uguali (omogeneità della varianza, come sottolineato già nelle altre risposte; questo dovrebbe essere descritto in (più) dettaglio in m ost libri di testo di statistica). Penso che tutte le distribuzioni basate sulla distribuzione normale ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) presume una varianza maggiore di 0 e minore di $ \ infty $ , quindi sarebbe impossibile trovare il valore p per un caso con una variabilità entro 0 (in questo caso ovviamente non presumeresti di aver tratto il tuo campione da una distribuzione normale).
(Anche questo sembra intuitivamente ragionevole: se voglio per confrontare due o più medie, la precisione di tali medie dovrebbe essere la stessa o almeno comparabile:
se eseguo la mia terapia genica A su persone la cui lunghezza del naso è abbastanza simile, diciamo $ \ bar x \ pm 0.5mm $ ma ho un gruppo di persone con unelevata variabilità nella lunghezza del naso nel mio gruppo di controllo, ad esempio $ \ bar x \ pm 4mm $ non sembra giusto confrontare direttamente questi mezzi, perché quei mezzi non ce lhanno lo stesso ” significato medio “; infatti la varianza / deviazione standard molto più alta nel mio gruppo di controllo potrebbe indicare ulteriori sottogruppi, forse differenze di lunghezze del naso dovute a differenze su alcuni geni.)

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *