Vad betyder poolad varians “ egentligen ”?

Jag är en noob i statistik, så kan ni snälla hjälpa mig här.

Min fråga är följande: Vad gör poolad varians egentligen betyder?

När jag letar efter en formel för poolad varians på internet hittar jag mycket litteratur med följande formel (till exempel här: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

\ begin {ekvation} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {ekvation}

Men vad gör det faktiskt beräkna? För när jag använder den här formeln för att beräkna min poolade avvikelse ger det mig fel svar.

Tänk till exempel på dessa ”överordnade exempel”:

\ begin {ekvation} \ label { eq: parentample} 2,2,2,2,2,8,8,8,8,8 \ end {ekvation}

Variansen för detta överordnade urval är $ S ^ 2_p = 10 $, och dess medelvärde är $ \ bar {x} _p = 5 $.

Antag nu att jag delar upp det här överordnade provet i två delprover:

  1. Det första delprovet är 2,2,2,2,2 med medelvärdet $ \ stapel {x} _1 = 2 $ och varians $ S ^ 2_1 = 0 $.
  2. Det andra delprovet är 8,8,8,8,8 med medelvärdet $ \ bar {x} _2 = 8 $ och varians $ S ^ 2_2 = 0 $.

Nu, klart, med hjälp av ovanstående formel för att beräkna den sammanslagna / överordnade variansen för dessa två delprover kommer att ge noll, eftersom $ S_1 = 0 $ och $ S_2 = 0 $. Så vad beräknar denna formel faktiskt ?

Å andra sidan, efter någon långvarig härledning, hittade jag att formeln som producerar rätt poolad / föräldervarians är:

\ begin {ekvation} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {ekvation}

I ovanstående formel, $ d_1 = \ bar {x_1} – \ bar {x} _p $ och $ d_2 = \ bar {x_2 } – \ bar {x} _p $.

Jag hittade en liknande formel med min, till exempel här: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html och även på Wikipedia. Även om jag måste erkänna att de inte ser exakt ut som mina.

Så vad betyder egentligen poolad varians egentligen? Borde det inte betyda variansen för föräldraprovet från de två delproverna ? Eller har jag helt fel här?

Tack på förhand.


EDIT 1: Någon säger att mina två delprover ovan är patologiska eftersom de har nollvarians. Jag kan ge dig ett annat exempel. Tänk på det här överordnade exemplet:

\ begin {equation} \ label {eq: parentample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}

Variansen för detta överordnade prov är $ S ^ 2_p = 564,7 $, och dess medelvärde är $ \ bar {x} _p = 25,5 $.

Antag att jag delar upp detta överordnade prov i två delprover:

  1. Det första delprovet är 1,2,3,4,5 med medelvärdet $ \ stapel {x} _1 = 3 $ och varians $ S ^ 2_1 = 2,5 $.
  2. Det andra delprovet är 46,47,48,49,50 med medelvärdet $ \ bar {x} _2 = 48 $ och varians $ S ^ 2_2 = 2,5 $.

Nu, om du använder ”litteraturens formel” för att beräkna den sammanslagna variansen får du 2,5, vilket är helt fel, eftersom den överordnade / sammanslagna variansen ska vara 564,7. Om du istället använder ”min formel” får du rätt svar.

Förstå, jag använder extrema exempel här för att visa människor att formeln verkligen är fel. Om jag använder ”normala data” som inte har många variationer (extrema fall) kommer resultaten från de två formlerna att vara mycket lika, och människor kan avvisa skillnaden på grund av avrundningsfel, inte för att själva formeln är fel.

Kommentarer

Svar

Enkelt uttryckt är den sammanslagna variansen en (opartisk) uppskattning av variansen inom varje prov, under antagande / begränsning att dessa avvikelser är lika.

Detta förklaras, motiveras och analyseras i detalj i Wikipedia-posten för poolad varians .

Det gör inte uppskatta variansen för ett nytt” meta-sampel ”bildat genom att sammanfoga de två enskilda exemplen, som du antar. Som du redan har upptäckt kräver uppskattning en helt annan formel.

Kommentarer

  • Antagandet om ” jämlikhet ” (det vill säga samma population insåg dessa prover) är inte nödvändigt i allmänhet för att definiera vad det är – ” poolat ”. Pooled betyder helt enkelt medelvärde, omnibus (se min kommentar till Tim).
  • @ttnphns Jag tror att jämställdhetsantagandet är nödvändigt för att ge den sammanslagna variansen en konceptuell betydelse (som OP begärde) som går utöver bara verbalt beskriver den matematiska operationen den utför på provvariationerna. Om populationsavvikelserna inte antas lika, är det ’ oklart vad vi kan betrakta som den sammanslagna variansen som en uppskattning av. Självklart kan vi bara tänka på det som en sammanslagning av de två avvikelserna och lämna det där, men att ’ knappast är upplysande i avsaknad av någon motivation för att vilja kombinera avvikelserna i första hand.
  • Jake, jag ’ Jag är inte oense med det, med tanke på OP: s specifika fråga, men jag ville tala om definition av ordet ” poolat ”, att ’ är varför jag sa, ” i allmänhet ”.
  • @JakeWestfall Ditt svar är det bästa svaret hittills. Tack. Även om jag fortfarande inte är klar med en sak. Enligt Wikipedia är poolad varians en metod för att uppskatta varians hos flera olika populationer när medelvärdet för varje population kan vara annorlunda , men man kan anta att variansen för varje population är samma .
  • @JakeWestfall: Så om vi beräknar poolad varians från två olika populationer med olika medel, vad beräknar den egentligen? Eftersom den första variansen mäter variationen med avseende på det första medelvärdet, och den andra variansen med avseende på det andra medelvärdet. Jag vet inte ’ vilken ytterligare information man kan få genom att beräkna den.

Svar

Poolad varians används för att kombinera varandra avvikelser från olika prover genom att ta deras viktade genomsnitt för att få den ”övergripande” variansen. Problemet med ditt exempel är att det är ett patologiskt fall, eftersom vart och ett av delproverna har varians lika med noll. Sådana patologiska fall har väldigt lite gemensamt med de data vi vanligtvis stöter på, eftersom det alltid finns viss variation och om det inte finns någon variation, bryr vi oss inte om sådana variabler eftersom de inte innehåller någon information. Du måste märka att detta är en mycket enkel metod och det finns mer komplicerade sätt att uppskatta varians i hierarkiska datastrukturer som inte är benägna att sådana problem.

När det gäller ditt exempel i redigeringen visar det att det är viktigt att tydligt ange dina antaganden innan analysen påbörjas. Låt oss säga att du har $ n $ datapunkter i $ k $ grupper, vi skulle beteckna det som $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, där $ i $ -th index i $ x_ {i, j} $ står för fall och $ j $ -th index står för gruppindex. Det finns flera scenarier möjliga, du kan anta att alla punkter kommer från samma distribution (för enkelhets skull, låt oss anta normalfördelning),

$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$

du kan anta att var och en av delproverna har sitt eget medelvärde

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

eller, dess egen varians

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

eller, var och en av dem har sina egna, separata parametrar

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

Beroende på dina antaganden kan en viss metod, eller kanske inte är tillräcklig för att analysera data.

I det första fallet skulle du inte vara intresserad av att uppskatta variationerna inom gruppen, eftersom du antar att de alla är desamma. Ändå, om du aggregerade den globala variansen från gruppvariationerna, skulle du få samma resultat som genom att använda poolad varians eftersom definitionen av varians är

$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$

och i poolad estimator multiplicerar du det först med $ n-1 $, lägger sedan ihop och delar slutligen med $ n_1 + n_2 – 1 $.

I det andra fallet betyder det annorlunda, men du har en gemensam varians. Detta exempel är närmast ditt exempel i redigeringen. I det här scenariot skulle den sammanslagna variansen korrekt uppskatta den globala variansen, medan om den uppskattade variansen för hela datasetet skulle du få felaktiga resultat, eftersom du inte redogjorde för det faktum att grupperna har olika medel .

I det tredje fallet är det inte meningsfullt att uppskatta den ”globala” variansen eftersom du antar att var och en av grupperna har sin egen varians.Du kanske fortfarande är intresserad av att få uppskattningen för hela befolkningen, men i så fall beräknar både (a) de enskilda varianserna per grupp och (b) den globala variansen från hela datasetet, kan ge dig vilseledande resultat . Om du har att göra med den här typen av data bör du tänka på att använda en mer komplicerad modell som tar hänsyn till dataens hierarkiska karaktär.

Det fjärde fallet är det mest extrema och liknar det tidigare. I det här scenariot, om du vill uppskatta det globala medelvärdet och variansen, behöver du en annan modell och en annan uppsättning antaganden. I ett sådant fall skulle du anta att dina data har en hierarkisk struktur, och förutom medel inom gruppen och avvikelser, finns det en högre nivå av gemensam varians, till exempel förutsatt följande modell

$$ \ börja {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

där varje prov har sina egna medel och avvikelser $ \ mu_j, \ sigma ^ 2_j $ som själva drar från vanliga distributioner. I ett sådant fall skulle du använda en hierarkisk modell som tar hänsyn till både nedre och övre nivåvariabilitet. För att läsa mer om denna typ av modeller kan du kolla Bayesian Data Analysis boken av Gelman et al. och deras åtta skolor exempel . Detta är dock mycket mer komplicerad modell än den enkla sammanslagna variansuppskattaren.

Kommentarer

  • Jag har uppdaterat min fråga med olika exempel. I det här fallet är svaret från ” litteratur ’ s formel ” fortfarande fel. Jag förstår att vi vanligtvis har att göra med ” normala data ” där det inte finns något extremt fall som mitt exempel ovan. Som matematiker bör du dock inte ’ t bryr dig om vilken formel som verkligen är korrekt, istället för vilken formel som gäller i ” vardagligt / vanligt problem ”? Om någon formel är i grunden fel, ska den kasseras, särskilt om det finns en annan formel som i alla fall gäller, patologisk eller inte.
  • Btw du sa att det finns mer komplicerade sätt för att uppskatta varians. Kan du visa mig dessa sätt? Tack
  • Tim, poolad varians är inte den totala variansen för ” kombinerat prov ”. I statistik betyder ” poolat ” viktat medelvärde (när vi talar om genomsnittliga kvantiteter som varianser, vikter vara n ’ s) eller bara summeras (när vi talar om summor som spridare, summor av kvadrater) . Snälla, ompröva din terminologi (ordval) i svaret.
  • Om än utanför det aktuella ämnet, här är en intressant fråga om ” gemensam ” varianskoncept. stats.stackexchange.com/q/208175/3277
  • Hanciong. Jag insisterar på att ” samlade ” i allmänhet och till och med specifikt ” poolad varians ” -konceptet behöver i allmänhet inget antagande såsom: grupper kom från befolkningar med lika varians. Pooling är helt enkelt blandning (viktad genomsnitt eller summering). Det är under ANOVA och liknande omständigheter som vi lägger till det statistiska antagandet.

Svar

Problemet är om du sammanfogar bara proverna och uppskattar dess varians. Du antar att de kommer från samma fördelning och har därför samma medelvärde. Men vi är generellt intresserade av flera prover med olika medelvärde. Är det vettigt?

Svar

Användningsfallet för poolad varians är när du har två exempel från distributioner som:

  • kan ha olika medel, men
  • som du förväntar dig har en lika sann varians.

Ett exempel på detta är en situation där du mäter längden på Alices näsa $ n $ gånger för ett prov och mäter längden på Bobs näsa $ m $ gånger för den andra. Dessa kommer sannolikt att producera en massa olika mätningar på millimeterskalan på grund av mätfel. Men du förväntar dig att variansen i mätfelet är densamma oavsett vilken näsa du mäter.

I det här fallet skulle det att ta den poolade variansen ge dig en bättre uppskattning av variansen i mätfel än att ta variansen av ett enda prov.

Kommentarer

  • Tack för ditt svar, men jag förstår fortfarande inte ’ om en sak . De första uppgifterna ger dig variationen i förhållande till Alice ’ s näslängd, och den andra informationen ger dig variationen med avseende på Bob ’ s näslängd. Om du beräknar en sammanslagen varians från dessa data, vad betyder det egentligen? Eftersom den första variansen mäter variationen med avseende på Alice ’ s, och den andra med avseende på Bob ’ s, så vad ytterligare information kan vi få genom att beräkna deras sammanslagna varians? De är helt olika siffror.

Svar

Genom poolade varians försöker vi inte uppskatta variansen för en större prov med mindre prover. De två exemplen du gav hänvisar därför inte exakt till frågan.

Sammanlagd varians krävs för att få en bättre uppskattning av populationsvariansen, från två prover som slumpmässigt har tagits från den populationen och kommer upp med olika variansuppskattningar.

Exempel, du försöker mäta varians i rökvanor hos män i London. Du provar två gånger, 300 män från London. Du får slutligen två avvikelser (förmodligen lite annorlunda Nu) eftersom du gjorde en rättvis slumpmässig provtagning (bäst för din förmåga! Eftersom sann slumpmässig provtagning är nästan omöjlig), har du alla rättigheter att säga att båda avvikelserna är sanna punktuppskattningar av befolkningsvarians (London-män i detta fall).

Men hur är det möjligt? dvs två olika poänguppskattningar !! Således går vi vidare och hittar en gemensam poänguppskattning som är sammanslagna varians. där vikterna är den frihetsgrad som är associerad med varje prov.

Hoppas det klargörs.

Svar

Även om jag är mycket sen till konversationen kanske jag kan lägga till något användbart:
Det verkar för mig att OP vill veta varför (vad för) vi skulle behöva en poolad variabilitetsuppskattning $ \ hat \ sigma_ {pooled} $ som ett viktat genomsnitt av två prover (vara det varians eller standardavvikelse).

Såvitt jag vet är det viktigaste praktiska behovet av detta typ av dispersionsmått uppstår från att vilja jämföra medel för (under-) grupper: så om jag vill jämföra den genomsnittliga näslängden för 1) personer som inte genomgått genterapi, 2) personer som genomgått genterapi A och 3) människor som genomgått genterapi B.
För att bättre kunna jämföra mängden av genomsnittliga längdskillnader (mm) delar jag upp medelskillnaden, säg, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ enligt variabilitetsuppskattningen (här standardavvikelse attion). Beroende på storleken på kvadratroten av poolad varians (poolad standardavvikelse) kan vi bättre bedöma storleken på 2 mm skillnaden mellan dessa grupper (t.ex. $ d = 2 mm / 0,5 mm = 4 $ vs $ d = 2mm / 4mm = 0,5 $ – > Gör genterapi A något i näslängden? Och i så fall hur mycket? När $ d = 4 $ eller $ 2 \ pm 0.5mm $ det verkar finnas en ” stabil ” eller ” konsekvent ” eller ” stor ” (jämfört med variabiliteten) skillnaden mellan de genomsnittliga näslängderna, när $ d = 0,5 $ eller $ 2 \ pm 4 mm $ verkar det inte så mycket, relativt sett. om alla värden inom båda grupperna är desamma och därför finns det ingen variabilitet hin grupperna, $ d $ skulle inte definieras men tolkningen skulle vara $ 2 \ pm 0mm = 2mm $ exakt).
Detta är tanken på effektstorlek (första teoretiskt introducerad av Neyman och Pearson så vitt jag vet, men i ett eller annat slag använts långt tidigare, se Stigler, 1986 , till exempel).
Så vad jag gör är att jämföra medelskillnaden mellan grupper med medelskillnaderna inom samma grupper, dvs viktat genomsnitt av avvikelser (standardavvikelser). Detta är mer meningsfullt än att jämföra medelskillnaden mellan (under-) grupper med medelskillnaden inom ” hela ” -gruppen, eftersom , som du (Hanciong) har visat, innehåller variansen (och standardavvikelsen) för hela gruppen också skillnaden (erna) för gruppmedlet.

teoretiskt behovet av åtgärden uppstår genom att kunna använda $ t $ -fördelning för att hitta sannolikheten för den observerade medelskillnaden eller en mer extrem, med tanke på något förväntat värde för medelskillnaden (p-värde för t.ex. Null-hypotes-signifikans-test , NHST eller Neyman-Pearson hypotes test eller Fisher hypotes test, konfidensintervall etc.): $ p (e \ ge e_ {observerad} | \ mu_e = 0) $ .
Såvitt jag vet är det p-värde som erhålls av $ t $ -distribution (och särskilt $ F $ -fördelning i fall med mer än två medel att jämföra) ger korrekta uppskattningar för sannolikheten endast när båda (eller alla) proverna dras från populationer med lika varians (homogenitet, som påpekas i de andra svaren redan; detta bör beskrivas i (mer) detalj i m ost statistik läroböcker). Jag tror att alla distributioner baseras på normalfördelningen ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) antar en varians av mer än 0 och mindre än $ \ infty $ , så det skulle vara omöjligt att hitta p-värdet för ett fall med en variation inom 0 (i det här fallet antar du uppenbarligen inte att ha dragit ditt urval från en normalfördelning).
(Detta verkar också vara intuitivt rimligt: om jag vill för att jämföra två eller flera medel bör precisionen av dessa medel vara densamma eller åtminstone jämförbar:
om jag kör min genterapi A på personer vars näslängder är ganska lika, säg $ \ bar x \ pm 0.5mm $ men har en grupp människor med hög variation i näslängder i min kontrollgrupp, säg $ \ bar x \ pm 4mm $ det verkar inte rättvist att direkt jämföra dessa medel eftersom de inte har det samma ” medelbetydande ”; faktiskt kan den mycket högre variansen / standardavvikelsen i min kontrollgrupp indikera ytterligare undergrupper, kanske skillnader i näslängder på grund av skillnader på någon gen.)

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *