Sunt o noob în statistici, așa că vă puteți ajuta, vă rog, aici.
Întrebarea mea este următoarea: Ce înseamnă varianta cumulată de fapt înseamnă?
Când caut o formulă pentru varianța cumulată pe internet, găsesc o mulțime de literatură folosind următoarea formulă (de exemplu, aici: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
\ begin {ecuație} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {ecuație}
Dar ce înseamnă de fapt calculați? Deoarece atunci când folosesc această formulă pentru a calcula varianța cumulată, îmi dă un răspuns greșit.
De exemplu, ia în considerare aceste „eșantioane părinte”:
\ begin {ecuație} \ label { eq: parentsample} 2,2,2,2,2,8,8,8,8,8,8 \ end {ecuație}
Varianța acestui eșantion părinte este $ S ^ 2_p = 10 $, iar media sa este $ \ bar {x} _p = 5 $.
Acum, să presupunem că am împărțit acest eșantion părinte în două sub-eșantioane:
- Primul eșantion secundar este 2,2,2,2,2 cu media $ \ bar {x} _1 = 2 $ și varianta $ S ^ 2_1 = 0 $.
- Al doilea sub-eșantion este 8,8,8,8,8 cu media $ \ bar {x} _2 = 8 $ și varianța $ S ^ 2_2 = 0 $.
Acum, în mod clar, folosind formula de mai sus pentru a calcula varianța cumulată / părinte a acestor două sub-eșantioane va produce zero, deoarece $ S_1 = 0 $ și $ S_2 = 0 $. Deci, ce calculează această formulă de fapt ?
Pe de altă parte, după o derivare îndelungată, am găsit formula care produce varianța cumulată / părinte corectă este:
\ begin {ecuație} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {ecuație}
În formula de mai sus, $ d_1 = \ bar {x_1} – \ bar {x} _p $ și $ d_2 = \ bar {x_2 } – \ bar {x} _p $.
Am găsit o formulă similară cu a mea, de exemplu aici: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html și, de asemenea, în Wikipedia. Deși trebuie să recunosc că nu arată exact la fel ca a mea.
Deci, din nou, ce înseamnă de fapt varianța cumulată? Nu ar trebui să însemne varianța eșantionului părinte din cele două sub-eșantioane ? Sau mă înșel complet aici?
Vă mulțumesc anticipat.
EDITARE 1: cineva spune că cele două sub-eșantioane de mai sus sunt patologice, deoarece au varianță zero. Ei bine, aș putea să vă dau un alt exemplu. Luați în considerare acest eșantion părinte:
\ begin {equation} \ label {eq: parentsample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}
Varianța acestui eșantion părinte este $ S ^ 2_p = 564,7 $, iar media sa este $ \ bar {x} _p = 25,5 $.
Acum, să presupunem că am împărțit acest eșantion părinte în două sub-eșantioane:
- Primul eșantion secundar este 1,2,3,4,5 cu media $ \ bar {x} _1 = 3 $ și varianța $ S ^ 2_1 = 2.5 $.
- Al doilea sub-eșantion este 46,47,48,49,50 cu media $ \ bar {x} _2 = 48 $ și varianța $ S ^ 2_2 = 2.5 $.
Acum, dacă utilizați formula „literatură” pentru a calcula varianța cumulată, veți obține 2.5, ceea ce este complet greșit, deoarece varianța părinte / grupată ar trebui să fie 564.7. În schimb, dacă folosiți „formula mea”, veți primi un răspuns corect.
Vă rog să înțelegeți, folosesc exemple extreme aici pentru a le arăta oamenilor că formula este într-adevăr greșită. Dacă folosesc „date normale” care nu au o mulțime de variații (cazuri extreme), atunci rezultatele din aceste două formule vor fi foarte similare, iar oamenii ar putea respinge diferența din cauza erorii de rotunjire, nu pentru că formula în sine este greșit.
Comentarii
- Câteva legături legate de ajutor: stats.stackexchange.com/q / 214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q / 43159/3277 .
- Ca student la statistici, cred că prima fomulă este utilizată pentru a estima varianța diferenței dintre două eșantioane medii , astfel încât să puteți forma Z- statistici ~ N (0,1) în ipoteza nulă. Cu toate acestea, a doua formulă este varianța concatenării a două eșantioane . Dacă vrem să-i distingem, nu numai din aspectul literal , ci și din funcționalitatea lor .
Răspuns
Pur și simplu, varianța cumulată este o estimare (imparțială) a varianței din cadrul fiecărui eșantion, sub ipoteza / constrângerea că aceste varianțe sunt egale.
Acest lucru este explicat, motivat și analizat în detaliu în intrarea Wikipedia pentru varianța cumulată .
Face not estimați varianța unui nou„ meta-eșantion ”format prin concatenarea celor două eșantioane individuale, așa cum ați presupus. După cum ați descoperit deja, estimarea necesită o formulă complet diferită.
Comentarii
- Presupunerea ” egalitate ” (adică aceeași populație a realizat aceste eșantioane) nu este necesar în general pentru a defini ce este – ” cumulat „. Pooled înseamnă pur și simplu media, omnibus (vezi comentariul meu către Tim).
- @ttnphns Cred că presupunerea egalității este necesară pentru a da varianței grupate un sens conceptual (pe care OP l-a cerut) care depășește doar verbal descriind operația matematică pe care o efectuează asupra varianțelor eșantionului. Dacă varianțele populației nu sunt presupuse egale, atunci ‘ nu este clar la ce am putea considera că varianța cumulată este o estimare. Desigur, ne-am putea gândi la aceasta ca fiind o amalgamare a celor două varianțe și lăsând-o la asta, dar ‘ este greu de luminat în absența oricărei motivații pentru dorința de a combina varianțele în primul rând.
- Jake, nu ‘ nu sunt în dezacord cu asta, dată fiind întrebarea specifică a PO, dar am vrut să vorbesc despre definiția cuvântului ” grupată „, ‘ este motivul pentru care am spus, ” în general „.
- @JakeWestfall Răspunsul dvs. este cel mai bun răspuns de până acum. Mulțumesc. Deși încă nu sunt clar despre un lucru. Potrivit Wikipedia, varianța combinată este o metodă de estimare a varianței mai multor populații diferite atunci când media a fiecărei populații poate fi diferită , dar se poate presupune că varianța din fiecare populație este același .
- @JakeWestfall: Deci, dacă calculăm varianța cumulată de la două populații diferite cu mijloace diferite, ce calculează de fapt? Deoarece prima varianță măsoară variația față de prima medie, iar a doua varianță este față de a doua medie. Nu ‘ nu știu ce informații suplimentare pot fi obținute din calcularea acestora.
Răspuns
Varianța combinată este utilizată pentru a combina împreună varianțele din diferite eșantioane, luând media lor ponderată, pentru a obține varianța „generală”. Problema cu exemplul dvs. este că este un caz patologic, deoarece fiecare dintre eșantioane prezintă varianță egală cu zero. Un astfel de caz patologic are foarte puțin în comun cu datele pe care le întâlnim de obicei, deoarece există întotdeauna o anumită variabilitate și dacă nu există variabilitate, nu ne pasă de astfel de variabile, deoarece acestea nu conțin informații. Trebuie să observați că aceasta este o metodă foarte simplă și există modalități mai complicate de estimare a varianței în structurile de date ierarhice care nu sunt predispuse la astfel de probleme.
La fel ca în cazul exemplului dvs. din editare, arată că este important să vă expuneți clar ipotezele înainte de a începe analiza. Să spunem că aveți $ n $ puncte de date în grupuri $ k $, l-am denota ca $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, unde indexul $ i $ -th din $ x_ {i, j} $ reprezintă cazuri și indexul $ j $ -th reprezintă indicii de grup. Există mai multe scenarii posibile, puteți presupune că toate punctele provin de la aceeași distribuție (pentru simplitate, să presupunem distribuție normală),
$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$
puteți presupune că fiecare dintre sub-eșantioane are propria medie
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$
sau, propria varianță
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$
sau, fiecare dintre ei are propriii parametri, distincti
$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$
În funcție de presupunerile dvs., o anumită metodă poate sau s-ar putea să nu fie adecvat pentru analiza datelor.
În primul caz, nu ați fi interesat să estimați varianțele din cadrul grupului, deoarece ați presupune că toate sunt la fel. Cu toate acestea, dacă ați agregat varianța globală din varianțele grupului, ați obține același rezultat ca și prin utilizarea varianței combinate, deoarece definiția varianței este
$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$
și în estimator cumulat mai întâi îl multiplicați cu $ n-1 $, apoi adăugați împreună și, în final, împărțiți la $ n_1 + n_2 – 1 $.
În al doilea caz, înseamnă diferă, dar aveți o varianță comună. Acest exemplu este cel mai apropiat de exemplul dvs. din editare. În acest scenariu, varianța cumulată ar corect ar estima varianța globală, în timp ce, dacă ar fi estimată varianța pe ansamblul setului de date, ați obține rezultate incorecte, deoarece nu luați în considerare faptul că grupurile au mijloace diferite .
În cel de-al treilea caz nu are sens să estimăm varianța „globală”, deoarece presupunem că fiecare dintre grupuri are propria varianță.Este posibil să fiți încă interesat să obțineți estimarea pentru întreaga populație, dar în acest caz atât (a) calcularea varianțelor individuale pe grup, cât și (b) calcularea varianței globale din întregul set de date, vă poate oferi rezultate înșelătoare . Dacă aveți de-a face cu acest tip de date, ar trebui să vă gândiți să folosiți un model mai complicat care să țină cont de natura ierarhică a datelor.
Al patrulea caz este cel mai extrem și destul de similar cu cel precedent. În acest scenariu, dacă doriți să estimați media și varianța globală, veți avea nevoie de un model diferit și un set diferit de ipoteze. În acest caz, ați presupune că datele dvs. au o structură ierarhică și, pe lângă mijloacele și varianțele din cadrul grupului, există o varianță comună la nivel superior, de exemplu, presupunând următorul model
$$ \ începe {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$
unde fiecare eșantion are propriile mijloace și variații $ \ mu_j, \ sigma ^ 2_j $ care sunt ele însele extrase din distribuții comune. În acest caz, veți utiliza un model ierarhic care ia în considerare atât variabilitatea la nivelul inferior, cât și la nivelul superior. Pentru a citi mai multe despre acest tip de modele, puteți verifica cartea Bayesian Data Analysis de Gelman și colab. și exemplul lor de opt școli . Acesta este totuși un model mult mai complicat decât estimatorul de varianță combinat.
Comentarii
- Mi-am actualizat întrebarea cu un exemplu diferit. În acest caz, răspunsul din ” literatură ‘ s formula ” este încă greșit. Înțeleg că avem de obicei de-a face cu ” date normale ” în care nu există niciun caz extrem ca exemplul meu de mai sus. Cu toate acestea, ca matematicieni, nu ar trebui să ‘ să vă pese de formula care este într-adevăr corectă, în loc de formula care se aplică în ” problemă de zi cu zi / comună „? Dacă o anumită formulă este fundamental greșită, ar trebui să fie aruncată, mai ales dacă există o altă formulă care este valabilă în toate cazurile, patologică sau nu.
- De asemenea, ați spus că există modalități mai complicate de estimare a varianței. Ai putea să-mi arăți aceste căi? Vă mulțumim
- Tim, varianța cumulată nu este varianța totală a ” eșantionului combinat „. În statistici, ” cumulat ” înseamnă mediat ponderat (când vorbim de cantități medii, cum ar fi variații, greutăți fiind n ‘ s) sau doar însumate (când vorbim de sume precum împrăștieri, sume de pătrate) . Vă rog să vă reconsiderați terminologia (alegerea cuvintelor) în răspuns.
- Deși nu este subiectul actual, iată o întrebare interesantă despre ” comun concept de varianță. stats.stackexchange.com/q/208175/3277
- Hanciong. Insist ca ” să pună în comun ” în general și chiar în mod specific ” varianță combinată ” conceptul nu are nevoie, în general, de nicio ipoteză precum: grupurile provin din populații cu varianțe egale. Combinarea este pur și simplu amestecarea (medierea ponderată sau însumarea). În ANOVA și în circumstanțe similare adăugăm această ipoteză statistică.
Răspuns
Problema este dacă doar concatenați eșantioanele și estimați varianța acestuia, presupunând că sunt din aceeași distribuție, prin urmare, au aceeași medie. Dar, în general, suntem interesați de mai multe eșantioane cu medii diferite. Are sens acest lucru?
Răspuns
Cazul de utilizare a varianței combinate este atunci când aveți două eșantioane din distribuții care:
- poate avea mijloace diferite, dar
- despre care vă așteptați să aibă o varianță adevărată egală.
Un exemplu în acest sens este o situație în care măsurați lungimea nasului lui Alice $ n $ ori pentru un eșantion și măsurați lungimea nasului lui Bob $ m $ ori pentru al doilea. Este posibil ca acestea să producă o grămadă de măsurători diferite pe scara de milimetri, din cauza erorii de măsurare. Dar vă așteptați ca varianța erorii de măsurare să fie aceeași indiferent de nasul pe care îl măsurați.
În acest caz, luarea varianței combinate vă va oferi o estimare mai bună a varianței erorii de măsurare decât luarea varianței dintr-un singur eșantion.
Comentarii
- Vă mulțumesc pentru răspuns, dar încă nu ‘ nu înțeleg un lucru . Primele date vă oferă varianța față de lungimea nasului lui Alice ‘, iar cele de-a doua date vă oferă varianța față de Bob ‘ lungimea nasului. Dacă calculați o varianță cumulată din aceste date, ce înseamnă de fapt? Deoarece prima varianță măsoară variația față de Alice ‘ s, iar a doua față de Bob ‘ s, deci ce suplimentar informații pe care le putem obține calculând varianța combinată a acestora? Sunt numere complet diferite.
Răspuns
Prin varianță combinată nu încercăm să estimăm varianța unui eșantion mai mare, folosind eșantioane mai mici. Prin urmare, cele două exemple pe care le-ați dat nu se referă exact la întrebare.
Varianța comună este necesară pentru a obține o estimare mai bună a varianței populației, din două eșantioane care au fost luate aleatoriu din acea populație și care apar cu estimări de varianță diferite.
De exemplu, încercați să evaluați varianța în obiceiurile de fumat ale bărbaților din Londra. Eșantionați de două ori, 300 de bărbați din Londra. În sfârșit, obțineți două varianțe (probabil puțin diferite !). Acum, deoarece ați făcut un eșantionare corectă aleatorie (cel mai bun după capacitatea dvs., deoarece eșantionarea aleatorie adevărată este aproape imposibilă), aveți toate drepturile de a spune că ambele varianțe sunt estimări punctuale adevărate ale varianței populației (bărbații din Londra în caz).
Dar cum este posibil acest lucru? adică două estimări punctuale diferite !! Astfel, mergem mai departe și găsim o estimare punctuală comună, care este varianța cumulată. Nu este altceva decât o medie ponderată de estimări în două puncte, unde greutățile reprezintă gradul de libertate asociat fiecărei probe.
Sper că acest lucru se clarifică.
Răspuns
Deși am întârziat foarte mult conversația, pot adăuga ceva util:
Mi se pare că PO dorește să știe de ce (pentru ce) am avea nevoie de o estimare de variabilitate cumulată $ \ hat \ sigma_ {pooled} $ ca medie ponderată de două eșantioane (fie (varianță sau deviație standard).
Din câte știu, necesitatea principală necesară pentru acest lucru un fel de măsură de dispersie apare din dorința de a compara mijloacele de (sub) grupuri: deci, dacă vreau să compar lungimea medie a nasului pentru 1) persoanele care nu au fost supuse unei terapii genetice, 2) persoanele care au fost supuse terapiei genetice A și 3) persoanele care au fost supuse terapiei genice B.
Pentru a putea compara mai bine cantitatea diferențelor medii de lungime (mm) Împart diferența medie, să zicem, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ după estimarea variabilității (aici standard devi acțiune). În funcție de mărimea rădăcinii pătrate a varianței grupate (abaterea standard colectată) putem judeca mai bine dimensiunea diferenței de 2 mm dintre acele grupuri (de exemplu, $ d = 2mm / 0,5mm = 4 $ vs. $ d = 2mm / 4mm = 0.5 $ – > Terapia genică A face ceva până la lungimea nasului? Și dacă da, cât? Când $ d = 4 $ sau 2 $ \ pm 0,5mm $ se pare că există un ” stabil ” sau ” ” sau ” mare ” (comparativ cu variabilitatea) diferența dintre lungimile medii ale nasului, atunci când $ d = 0.5 $ sau $ 2 \ pm 4mm $ nu pare atât de mult, relativ vorbind. În în cazul în care toate valorile din ambele grupuri sunt aceleași și, prin urmare, nu există nicio variabilitate În cadrul grupurilor, $ d $ nu ar fi definit, dar interpretarea ar fi $ 2 \ pm 0mm = 2mm $ exact).
Aceasta este ideea de mărimea efectului (introdusă teoretic de Neyman și Pearson din câte știu eu, dar într-un fel sau altul folosită cu mult înainte, vezi Stigler, 1986 , de exemplu).
Deci, ceea ce fac este să compar diferența medie între grupuri cu diferențele medii din aceleași grupuri, adică media ponderată a varianțelor (abateri standard). Acest lucru are mai mult sens decât să comparăm diferența medie între (sub) grupuri cu diferența medie din grupul ” întreg „, deoarece , așa cum ați arătat dvs. (Hanciong), varianța (și abaterea standard) a întregului grup conține diferența (diferențele) dintre grupuri și mijloacele.
Necesitatea teoretică de măsură apare din faptul că puteți utiliza $ t $ -distribuție pentru a găsi probabilitatea pentru diferența medie observată sau una mai extremă, având în vedere o anumită valoare așteptată pentru diferența medie (valoarea p de exemplu, Null-Hypothesis-Significance-Test , NHST sau testul ipotezei Neyman-Pearson sau testul ipotezei Fisher, intervalele de încredere etc.): $ p (e \ ge e_ {observat} | \ mu_e = 0) $ .
Din câte știu, valoarea p obținută de $ t $ -distribuire (și mai ales $ F $ -distribuirea în cazurile cu mai mult de 2 mijloace de comparat) va da estimări corecte pentru probabilitate numai atunci când ambele (sau toate) eșantioanele sunt extrase din populații cu varianțe egale (omogenitatea varianței, așa cum sa subliniat în celelalte răspunsuri deja; acest lucru ar trebui descris în (mai) detalii în m manuale de statistici ost). Cred că toate distribuțiile se bazează pe distribuția normală ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) presupune o varianță mai mare de 0 și mai mică de $ \ infty $ , deci ar fi imposibil de găsit valoarea p pentru un caz cu o variabilitate de 0 (în acest caz, evident, nu ați presupune că ați extras eșantionul dintr-o distribuție normală).
(Acest lucru pare, de asemenea, intuitiv rezonabil: dacă vreau pentru a compara două sau mai multe mijloace, atunci precizia acestor mijloace ar trebui să fie aceeași sau cel puțin comparabilă:
dacă îmi conduc terapia genetică A pe oameni a căror lungime a nasului este destul de similară, spuneți $ \ bar x \ pm 0,5mm $ dar au un grup de persoane cu variabilitate ridicată în lungimile nasului în grupul meu de control, să spunem $ \ bar x \ pm 4mm $ nu pare corect să comparăm direct aceste mijloace, deoarece aceste mijloace nu au același ” mean-meaning ” de fapt, varianța / deviația standard mult mai mare în grupul meu de control ar putea indica subgrupuri suplimentare, poate diferențe de lungimi ale nasului datorate diferențelor de la o anumită genă.)