Ik ben een noob in statistieken, dus kunnen jullie me hier alsjeblieft helpen.
Mijn vraag is de volgende: wat doet gepoolde variantie eigenlijk gemiddeld?
Als ik op internet naar een formule voor gepoolde variantie zoek, vind ik veel literatuur met de volgende formule (bijvoorbeeld hier: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
\ begin {equation} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {equation}
Maar wat doet het eigenlijk berekenen? Omdat wanneer ik deze formule gebruik om mijn gepoolde variantie te berekenen, ik een verkeerd antwoord krijg.
Beschouw bijvoorbeeld deze “bovenliggende steekproef”:
\ begin {equation} \ label { eq: parent sample} 2,2,2,2,2,8,8,8,8,8 \ end {equation}
De variantie van deze oudersteekproef is $ S ^ 2_p = 10 $, en het gemiddelde is $ \ bar {x} _p = 5 $.
Stel nu dat ik deze bovenliggende steekproef in twee deelsteekproeven split:
- De eerste deelsteekproef is 2,2,2,2,2 met een gemiddelde $ \ bar {x} _1 = 2 $ en variantie $ S ^ 2_1 = 0 $.
- Het tweede deelmonster is 8,8,8,8,8 met een gemiddelde $ \ bar {x} _2 = 8 $ en variantie $ S ^ 2_2 = 0 $.
Het is duidelijk dat het gebruik van de bovenstaande formule om de gepoolde / oudervariantie van deze twee submonsters te berekenen nul zal opleveren, omdat $ S_1 = 0 $ en $ S_2 = 0 $. Dus wat berekent deze formule eigenlijk ?
Aan de andere kant, na enige langdurige afleiding, vond ik de formule die de juiste gepoolde / oudervariantie produceert:
\ begin {vergelijking} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {equation}
In de bovenstaande formule, $ d_1 = \ bar {x_1} – \ bar {x} _p $ en $ d_2 = \ bar {x_2 } – \ bar {x} _p $.
Ik vond een vergelijkbare formule met de mijne, bijvoorbeeld hier: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html en ook in Wikipedia. Hoewel ik moet toegeven dat ze er niet precies hetzelfde uitzien als de mijne.
Dus nogmaals, wat betekent gepoolde variantie eigenlijk? Zou het niet de variantie moeten zijn van de oudersteekproef uit de twee ondersteekproeven ? Of heb ik het hier helemaal mis?
Bij voorbaat dank.
EDIT 1: Iemand zegt dat mijn twee bovenstaande submonsters pathologisch zijn omdat ze geen variantie hebben. Ik zou je een ander voorbeeld kunnen geven. Beschouw dit bovenliggende voorbeeld:
\ begin {vergelijking} \ label {eq: oudersvoorbeeld2} 1,2,3,4,5,46,47,48,49,50 \ end {vergelijking}
De variantie van deze bovenliggende steekproef is $ S ^ 2_p = 564,7 $, en het gemiddelde is $ \ bar {x} _p = 25,5 $.
Stel nu dat ik deze bovenliggende steekproef in twee deelsteekproeven split:
- De eerste deelsteekproef is 1,2,3,4,5 met een gemiddelde $ \ bar {x} _1 = 3 $ en variantie $ S ^ 2_1 = 2,5 $.
- Het tweede deelmonster is 46,47,48,49,50 met een gemiddelde $ \ bar {x} _2 = 48 $ en variantie $ S ^ 2_2 = 2,5 $.
Als je nu de “literatuurformule” gebruikt om de gepoolde variantie te berekenen, krijg je 2.5, wat helemaal verkeerd is. omdat de ouder / gepoolde variantie 564,7 zou moeten zijn. In plaats daarvan, als u “mijn formule” gebruikt, krijgt u het juiste antwoord.
Begrijp alsjeblieft, ik gebruik hier extreme voorbeelden om mensen te laten zien dat de formule inderdaad verkeerd is. Als ik normale gegevens gebruik die niet veel variaties hebben (extreme gevallen), dan zullen de resultaten van die twee formules erg op elkaar lijken en kunnen mensen het verschil negeren vanwege een afrondingsfout, niet omdat de formule zelf is fout.
Reacties
- Enkele gerelateerde links om te helpen: stats.stackexchange.com/q / 214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q / 43159/3277 .
- Als statistiekstudent denk ik dat de eerste fomula wordt gebruikt om de variantie te schatten van het verschil tussen het gemiddelde van twee steekproeven , zodat je Z- statistieken ~ N (0,1) onder nulhypothese. De tweede formule is echter de variantie van aaneenschakeling van twee steekproeven . Als we ze willen onderscheiden, niet alleen vanuit het letterlijke aspect, maar ook vanuit hun functionaliteit .
Antwoord
Simpel gezegd, de gepoolde variantie is een (zuivere) schatting van de variantie binnen elke steekproef, onder de aanname / beperking dat die varianties gelijk zijn.
Dit wordt uitgelegd, gemotiveerd en tot in detail geanalyseerd in de Wikipedia-vermelding voor gepoolde variantie .
Het doet niet schat de variantie van een nieuwe” meta-sample “die wordt gevormd door de twee individuele samples samen te voegen, zoals je veronderstelde. Zoals je al hebt ontdekt, is voor het schatten een heel andere formule nodig.
Opmerkingen
- De aanname van ” gelijkheid ” (dat wil zeggen, dezelfde populatie realiseerde zich die steekproeven) is in het algemeen niet nodig om te definiëren wat het is – ” gepoold “. Gepoold betekent gewoon gemiddeld, omnibus (zie mijn opmerking aan Tim).
- @ttnphns Ik denk dat de aanname van gelijkheid noodzakelijk is om de gepoolde variantie een conceptuele betekenis te geven (waar het OP vroeg om) die verder gaat dan alleen verbaal een beschrijving van de wiskundige bewerking die het uitvoert op de steekproefvarianties. Als de populatievarianties niet als gelijk worden aangenomen, is het ‘ s onduidelijk waarvan we de gepoolde variantie zouden kunnen beschouwen als een schatting. We zouden het natuurlijk kunnen beschouwen als een samensmelting van de twee varianties en het daarbij laten, maar dat ‘ is nauwelijks verhelderend bij gebrek aan enige motivatie om te willen combineren de varianties in de eerste plaats.
- Jake, ik ‘ ben het daar niet mee oneens, gezien de specifieke vraag van het OP, maar ik wilde spreken over definitie van het woord ” pooled “, dat ‘ s waarom ik zei, ” in het algemeen “.
- @JakeWestfall Uw antwoord is tot dusver het beste antwoord. Dank je. Hoewel ik over één ding nog steeds niet duidelijk ben. Volgens Wikipedia is gepoolde variantie een methode om de variantie van verschillende populaties te schatten wanneer het gemiddelde van elke populatie verschillend kan zijn, maar men mag aannemen dat de variantie van elke populatie is dezelfde .
- @JakeWestfall: Dus als we gepoolde variantie van twee verschillende populaties met verschillende gemiddelden berekenen, wat berekent het dan eigenlijk? Omdat de eerste variantie de variatie meet ten opzichte van het eerste gemiddelde, en de tweede variantie betreft het tweede gemiddelde. Ik weet niet ‘ welke aanvullende informatie kan worden verkregen door het te berekenen.
Antwoord
Gepoolde variantie wordt gebruikt om de varianties van verschillende steekproeven samen te voegen door hun gewogen gemiddelde te nemen, om de “algemene” variantie te krijgen. Het probleem met uw voorbeeld is dat het een pathologisch geval is, aangezien elk van de deelmonsters een variantie heeft die gelijk is aan nul. Een dergelijk pathologisch geval heeft weinig gemeen met de gegevens die we gewoonlijk tegenkomen, aangezien er altijd enige variabiliteit is en als er geen variabiliteit is, geven we niet om dergelijke variabelen omdat ze geen informatie bevatten. U moet opmerken dat dit een zeer eenvoudige methode en er zijn meer gecompliceerde manieren om variantie in hiërarchische gegevensstructuren te schatten die niet vatbaar zijn voor dergelijke problemen.
Wat betreft uw voorbeeld in de bewerking, het toont aan dat het belangrijk is om uw aannames duidelijk te vermelden voordat u met de analyse begint. Stel dat u $ n $ datapunten in $ k $ groepen heeft, we duiden dit aan als $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, waarbij de $ i $ -th index in $ x_ {i, j} $ staat voor cases en $ j $ -th index staat voor groepsindexen. Er zijn verschillende scenarios mogelijk, je kunt ervan uitgaan dat alle punten uit dezelfde verdeling komen (voor de eenvoud, laten we aannemen dat de normale verdeling),
$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$
je kunt ervan uitgaan dat elk van de submonsters zijn eigen gemiddelde heeft
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$
of, zijn eigen variantie
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$
of, elk van hen heeft zijn eigen, verschillende parameters
$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$
Afhankelijk van uw aannames kan een bepaalde methode, of is mogelijk niet geschikt voor het analyseren van de gegevens.
In het eerste geval zou u niet geïnteresseerd zijn in het schatten van de varianties binnen de groep, aangezien u zou aannemen dat ze allemaal hetzelfde zijn. Als u echter de globale variantie van de groepsvarianties zou aggregeren, zou u hetzelfde resultaat krijgen als door gepoolde variantie te gebruiken, aangezien de definitie van variantie is
$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$
en in de gepoolde schatter vermenigvuldig je het eerst met $ n-1 $, tel je het bij elkaar op en deel je het tenslotte door $ n_1 + n_2 – 1 $.
In het tweede geval verschillen de gemiddelden, maar heb je een gemeenschappelijke variantie. Dit voorbeeld komt het dichtst bij uw voorbeeld in de bewerking. In dit scenario zou de gepoolde variantie correct de globale variantie schatten, terwijl u bij een geschatte variantie op de hele dataset onjuiste resultaten zou krijgen, aangezien u geen rekening hield met het feit dat de groepen verschillende gemiddelden hebben .
In het derde geval heeft het geen zin om de “globale” variantie te schatten, aangezien je ervan uitgaat dat elk van de groepen zijn eigen variantie heeft.Mogelijk bent u nog steeds geïnteresseerd in het verkrijgen van de schatting voor de hele populatie, maar in dat geval zowel (a) het berekenen van de individuele varianties per groep, als (b) het berekenen van de globale variantie uit de hele dataset, kan misleidende resultaten opleveren . Als u met dit soort gegevens te maken heeft, zou u moeten overwegen om een meer gecompliceerd model te gebruiken dat de hiërarchische aard van de gegevens verklaart.
Het vierde geval is het meest extreem en lijkt veel op het vorige. Als u in dit scenario het globale gemiddelde en de variantie wilt schatten, hebt u een ander model en een andere set aannames nodig. In dat geval zou u aannemen dat uw gegevens een hiërarchische structuur hebben, en naast de gemiddelden en varianties binnen de groep, is er een algemene variantie op een hoger niveau, bijvoorbeeld door het volgende model aan te nemen.
$$ \ begin {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$
waarbij elk monster zijn eigen gemiddelden en varianties $ \ mu_j, \ sigma ^ 2_j $ heeft die zelf afkomstig zijn uit gewone distributies. In dat geval zou u een hiërarchisch model gebruiken dat rekening houdt met zowel de variabiliteit op het lagere als op het hogere niveau. Om meer over dit soort modellen te lezen, kun je het boek Bayesian Data Analysis van Gelman et al. Raadplegen. en hun voorbeeld van acht scholen . Dit is echter een veel gecompliceerder model dan de eenvoudige gepoolde variantie-schatter.
Opmerkingen
- Ik heb mijn vraag bijgewerkt met een ander voorbeeld. In dit geval is het antwoord van ” literatuur ‘ s formule ” nog steeds fout. Ik begrijp dat we meestal te maken hebben met ” normale gegevens ” waar er geen extreem geval is zoals in mijn voorbeeld hierboven. Als wiskundigen zouden ‘ het u echter niet kunnen schelen welke formule inderdaad correct is, in plaats van welke formule van toepassing is in ” alledaags / algemeen probleem “? Als een formule fundamenteel verkeerd is, moet deze worden weggegooid, vooral als er een andere formule is die in alle gevallen geldt, pathologisch of niet.
- Trouwens, je zei dat er meer gecompliceerde manieren zijn van het schatten van variantie. Kunt u mij deze manieren laten zien? Bedankt
- Tim, gepoolde variantie is niet de totale variantie van de ” gecombineerde steekproef “. In statistieken betekent ” gepoold ” gewogen gemiddelde (wanneer we spreken over gemiddelde hoeveelheden zoals varianties, gewichten zijnde de n ‘ s) of gewoon opgeteld (als we spreken over sommen zoals scatters, sommen van kwadraten) . Heroverweeg alstublieft uw terminologie (woordkeuze) in het antwoord.
- Hoewel dit niet het huidige onderwerp is, is hier een interessante vraag over ” common ” variantieconcept. stats.stackexchange.com/q/208175/3277
- Hanciong. Ik sta erop dat ” pooled ” in het algemeen en zelfs specifiek ” gepoolde variantie ” concept vereist in het algemeen geen aanname zoals: groepen kwamen uit populaties met gelijke varianties. Pooling is simpelweg blending (gewogen gemiddelde of sommatie). Het is in ANOVA en vergelijkbare omstandigheden dat we die statistische aanname toevoegen.
Antwoord
Het probleem is of je voegt gewoon de steekproeven samen en schat de variantie ervan. Je gaat ervan uit dat ze uit dezelfde verdeling komen en daarom hetzelfde gemiddelde hebben. Maar we zijn over het algemeen geïnteresseerd in verschillende voorbeelden met verschillende gemiddelden. Is dit logisch?
Antwoord
Het gebruik van gepoolde variantie is wanneer je twee voorbeelden hebt van distributies die:
- kan verschillende middelen hebben, maar
- waarvan je verwacht dat ze een gelijke ware variantie hebben.
Een voorbeeld hiervan is een situatie waarin je de lengte van de neus van Alice $ n $ keer meet voor één monster, en de lengte van Bobs neus $ m $ keer voor de tweede. Deze zullen waarschijnlijk een heleboel verschillende metingen op de schaal van millimeters opleveren, vanwege meetfouten. Maar u verwacht dat de variantie in de meetfout hetzelfde is, ongeacht welke neus u meet.
In dit geval zou het nemen van de gepoolde variantie u een betere schatting geven van de variantie in de meetfout dan het nemen van de variantie van één monster alleen.
Opmerkingen
- Bedankt voor je antwoord, maar ik begrijp nog steeds niet één ding ‘ . De eerste gegevens geven je de variantie met betrekking tot de neuslengte van Alice ‘, en de tweede gegevens geven je de variantie met betrekking tot Bob ‘ s neuslengte. Als u een gepoolde variantie berekent op basis van die gegevens, wat betekent dit dan eigenlijk? Omdat de eerste variantie de variatie meet met betrekking tot Alice ‘ s, en de tweede met betrekking tot Bob ‘ s, dus welke extra informatie kunnen we verkrijgen door hun gepoolde variantie te berekenen? Het zijn totaal verschillende getallen.
Antwoord
Door middel van gepoolde variantie proberen we niet de variantie van een grotere steekproef, met kleinere steekproeven. Daarom verwijzen de twee voorbeelden die u gaf niet precies naar de vraag.
Gepoolde variantie is vereist om een betere schatting van de populatievariantie te krijgen, uit twee steekproeven die willekeurig uit die populatie zijn genomen en met verschillende variantieschattingen.
Voorbeeld: u probeert variantie in de rookgewoonten van mannen in Londen te meten. U steekproefsgewijs twee keer 300 mannen uit Londen uit. U krijgt uiteindelijk twee varianties (waarschijnlijk een beetje anders !). Aangezien u een eerlijke willekeurige steekproef hebt genomen (het beste voor uw vermogen! Aangezien echte willekeurige steekproeven bijna onmogelijk zijn), heeft u alle rechten om te zeggen dat beide varianties echte puntschattingen zijn van de populatievariantie (Londense mannen in deze geval).
Maar hoe is dat mogelijk? dwz twee verschillende puntschattingen !! Dus gaan we verder en vinden we een gemeenschappelijke puntschatting die gepoolde variantie is. Het is niets anders dan een gewogen gemiddelde van twee puntschattingen, waarbij de gewichten de mate van vrijheid zijn die bij elk monster hoort.
Ik hoop dat dit verduidelijkt.
Antwoord
Hoewel ik erg laat ben met het gesprek, kan ik misschien iets nuttigs toevoegen:
Het lijkt mij dat het OP wil weten waarom (waarvoor) we een gepoolde variabiliteitsschatting $ \ hat \ sigma_ {pooled} $ nodig hebben als een gewogen gemiddelde van twee steekproeven (be it variantie of standaarddeviatie).
Voor zover ik weet is de belangrijkste praktische behoefte hiervoor soort verspreidingsmaatstaf komt voort uit het willen vergelijken van gemiddelden van (sub-) groepen: dus als ik de gemiddelde neuslengte wil vergelijken voor 1) mensen die geen gentherapie hebben ondergaan, 2) mensen die gentherapie hebben ondergaan A en 3) mensen die gentherapie hebben ondergaan B.
Om het aantal gemiddelde lengteverschillen (mm) beter te kunnen vergelijken, deel ik het gemiddelde verschil bijvoorbeeld $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ volgens de variabiliteitsschatting (hier standaard devi ation). Afhankelijk van de grootte van de vierkantswortel van de gepoolde variantie (gepoolde standaarddeviatie) kunnen we de grootte van het verschil van 2 mm tussen die groepen beter beoordelen (bijv. $ d = 2 mm / 0,5 mm = 4 $ vs. $ d = 2mm / 4mm = 0,5 $ – > Is gentherapie A wel iets met de neuslengte? En zo ja, hoeveel? Wanneer $ d = 4 $ of $ 2 \ pm 0,5 mm $ er lijkt een ” stabiele ” of ” consistente ” of ” big ” (vergeleken met de variabiliteit) verschil tussen de gemiddelde neuslengtes, wanneer $ d = 0,5 $ of $ 2 \ pm 4 mm $ lijkt het relatief gezien niet zo veel. In het geval dat alle waarden binnen beide groepen hetzelfde zijn en daarom is er geen variabiliteit in de groepen zou $ d $ niet worden gedefinieerd, maar de interpretatie zou $ 2 \ pm 0mm = 2mm $ precies).
Dit is het idee van effectgrootte (voor het eerst theoretisch geïntroduceerd door Neyman en Pearson voor zover ik weet, maar in een of andere soort al lang eerder gebruikt, zie Stigler, 1986 , bijvoorbeeld).
Dus wat ik doe is het gemiddelde verschil tussen groepen vergelijken met de gemiddelde verschillen binnen diezelfde groepen, dat wil zeggen gewogen gemiddelde van varianties (standaarddeviaties). Dit is logischer dan het gemiddelde verschil tussen (sub) groepen te vergelijken met het gemiddelde verschil binnen de ” hele ” groep, omdat , zoals jij (Hanciong) hebt aangetoond, bevat de variantie (en standaarddeviatie) van de hele groep ook het verschil (en) van de groepsgemiddelden.
De theoretische behoefte aan de meting komt voort uit het kunnen gebruiken van de $ t $ -verdeling om de waarschijnlijkheid voor het waargenomen gemiddelde verschil of een extremere te vinden, gegeven een verwachte waarde voor het gemiddelde verschil (p-waarde voor bijvoorbeeld Null-Hypothese-Significance-Test , NHST- of Neyman-Pearson-hypothesetest of Fisher-hypothesetest, betrouwbaarheidsintervallen enz.): $ p (e \ ge e_ {waargenomen} | \ mu_e = 0) $ .
Voorzover ik weet, is de p-waarde verkregen door de $ t $ -distributie (en vooral de $ F $ -verdeling in gevallen met meer dan 2 vergelijkingsgemiddelden) geeft alleen correcte schattingen voor de waarschijnlijkheid wanneer beide (of alle) steekproeven worden getrokken uit populaties met gelijke varianties (homogeniteit van variantie, zoals aangegeven in de andere antwoorden al; dit zou in m (meer) gedetailleerd moeten worden beschreven ost statistiekboeken). Ik denk dat alle distributies zijn gebaseerd op de normale distributie ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) gaan uit van een variantie van meer dan 0 en minder dan $ \ infty $ , dus het zou zijn onmogelijk om de p-waarde te vinden voor een casus met een binnen-variabiliteit van 0 (in dit geval zou je natuurlijk niet aannemen dat je je steekproef uit een normale verdeling hebt getrokken).
(Dit lijkt ook intuïtief redelijk: als ik wil om twee of meer gemiddelden te vergelijken, moet de precisie van die gemiddelden hetzelfde of op zijn minst vergelijkbaar zijn:
als ik mijn gentherapie A laat uitvoeren op mensen met een neuslengte die erg op elkaar lijkt, bijvoorbeeld $ \ bar x \ pm 0,5 mm $ maar ik heb een groep mensen met een grote variatie in neuslengtes in mijn controlegroep, bijvoorbeeld $ \ bar x \ pm 4 mm $ lijkt het niet eerlijk om die middelen rechtstreeks te vergelijken, want die middelen hebben dat niet hetzelfde ” gemiddelde betekenis “; in feite zou de zeer veel hogere variantie / standaarddeviatie in mijn controlegroep kunnen wijzen op verdere subgroepen, misschien verschillen in neuslengte vanwege verschillen op een bepaald gen.)