Hvad betyder samlet varians “ faktisk ”?

Jeg er en noob inden for statistik, så kan I venligst hjælpe mig her.

Mit spørgsmål er følgende: Hvad gør samlet varians faktisk betyder?

Når jeg leder efter en formel for samlet varians på internettet, finder jeg en masse litteratur ved hjælp af følgende formel (for eksempel her: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

\ begin {ligning} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {ligning}

Men hvad betyder det faktisk beregne? For når jeg bruger denne formel til at beregne min samlede varians, giver det mig forkert svar.

Overvej f.eks. Disse “overordnede eksempler”:

\ begin {ligning} \ label { eq: parentample} 2,2,2,2,2,8,8,8,8,8 \ end {ligning}

Varianten for denne overordnede prøve er $ S ^ 2_p = 10 $, og dets gennemsnit er $ \ bar {x} _p = 5 $.

Antag nu, at jeg deler denne overordnede prøve i to underprøver:

  1. Den første underprøve er 2,2,2,2,2 med gennemsnit $ \ bar {x} _1 = 2 $ og varians $ S ^ 2_1 = 0 $.
  2. Den anden delprøve er 8,8,8,8,8 med gennemsnit $ \ bar {x} _2 = 8 $ og varians $ S ^ 2_2 = 0 $.

Nu, ved at bruge ovenstående formel til at beregne den samlede / overordnede varians af disse to delprøver, produceres det nul, fordi $ S_1 = 0 $ og $ S_2 = 0 $. Så hvad beregner denne formel faktisk ?

På den anden side fandt jeg efter en langvarig afledning formlen, der producerer den korrekte samlede / forældrevarians, er:

\ begin {ligning} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {ligning}

I ovenstående formel er $ d_1 = \ bar {x_1} – \ bar {x} _p $ og $ d_2 = \ bar {x_2 } – \ bar {x} _p $.

Jeg fandt en lignende formel med min, for eksempel her: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html og også på Wikipedia. Selvom jeg må indrømme, at de ikke ser nøjagtigt ud som min.

Så igen, hvad betyder samlet varians egentlig? Skal det ikke betyde variansen af moderprøven fra de to delprøver ? Eller har jeg helt forkert her?

På forhånd tak.


EDIT 1: Nogen siger, at mine to underprøver ovenfor er patologiske, da de har nul varians. Jeg kunne give dig et andet eksempel. Overvej denne overordnede prøve:

\ begin {equation} \ label {eq: parentample2} 1,2,3,4,5,46,47,48,49,50 \ end {ligning}

Variationen for denne overordnede prøve er $ S ^ 2_p = 564,7 $, og dens gennemsnit er $ \ bar {x} _p = 25,5 $.

Antag nu, at jeg deler denne overordnede prøve i to underprøver:

  1. Den første underprøve er 1,2,3,4,5 med gennemsnit $ \ bjælke {x} _1 = 3 $ og varians $ S ^ 2_1 = 2,5 $.
  2. Den anden underprøve er 46,47,48,49,50 med gennemsnit $ \ bar {x} _2 = 48 $ og varians $ S ^ 2_2 = 2,5 $.

Nu, hvis du bruger “litteraturens formel” til at beregne den samlede varians, får du 2,5, hvilket er helt forkert, fordi den overordnede / samlede varians skulle være 564,7. I stedet for, hvis du bruger “min formel”, får du det rigtige svar.

Vær venlig at forstå, jeg bruger ekstreme eksempler her for at vise folk, at formlen faktisk er forkert. Hvis jeg bruger “normale data”, som ikke har mange variationer (ekstreme tilfælde), så vil resultaterne fra disse to formler være meget ens, og folk kunne afvise forskellen på grund af afrundingsfejl, ikke fordi selve formlen er forkert.

Kommentarer

Svar

Enkelt sagt er den samlede varians et (upartisk) skøn over variansen inden for hver prøve under den antagelse / begrænsning, at disse afvigelser er ens.

Dette forklares, motiveres og analyseres i detaljer i Wikipedia-posten for samlet varians .

Det gør ikke estimerer variansen af en ny” meta-prøve “dannet ved sammenkædning af de to individuelle prøver, som du antog. Som du allerede har opdaget, kræver estimering af det en helt anden formel.

Kommentarer

  • Antagelsen om ” lighed ” (det vil sige den samme population indså disse prøver) er ikke nødvendig generelt for at definere, hvad det er – ” samlet “. Samlet betyder simpelthen gennemsnit, omnibus (se min kommentar til Tim).
  • @ttnphns Jeg tror, at ligestillingsantagelsen er nødvendig for at give den samlede variation en konceptuel betydning (som OP bad om), der går ud over bare verbalt beskriver den matematiske operation, den udfører på prøvevariationerne. Hvis populationsafvigelser ikke antages at være ens, er det ‘ uklart, hvad vi kan betragte den samlede varians som et skøn over. Selvfølgelig kunne vi bare tænke på det som en sammenlægning af de to afvigelser og lade det være, men at ‘ næppe er oplysende i mangel af nogen motivation for at ønske at kombinere afvigelserne i første omgang.
  • Jake, jeg ‘ er ikke uenig med det i betragtning af det specifikke spørgsmål om OP, men jeg ville tale om definition af ordet ” samlet “, at ‘ hvorfor jeg sagde, ” generelt “.
  • @JakeWestfall Dit svar er det bedste svar hidtil. Tak skal du have. Selvom jeg stadig ikke er klar over en ting. Ifølge Wikipedia er samlet varians en metode til at estimere varians for flere forskellige populationer, når middelværdien for hver population kan være forskellig , men man kan antage, at variansen for hver population er den samme .
  • @JakeWestfall: Så hvis vi beregner den samlede variation fra to forskellige populationer med forskellige midler, hvad beregner det egentlig? Fordi den første varians måler variationen i forhold til det første gennemsnit, og den anden varians er i forhold til det andet gennemsnit. Jeg ved ‘ ikke, hvilke yderligere oplysninger der kan opnås ved at beregne den.

Svar

Samlet varians bruges til at kombinere varianter fra forskellige prøver ved at tage deres vægtede gennemsnit for at få den “samlede” varians. Problemet med dit eksempel er, at det er et patologisk tilfælde, da hver af delprøverne har en varians, der er lig med nul. En sådan patologisk sag har meget lidt til fælles med de data, vi normalt støder på, da der altid er en vis variation, og hvis der ikke er nogen variation, bryr vi os ikke om sådanne variabler, da de ikke indeholder nogen information. Du skal være opmærksom på, at dette er en meget enkel metode, og der er mere komplicerede måder at estimere varians i hierarkiske datastrukturer, der ikke er tilbøjelige til sådanne problemer.

Som med dit eksempel i redigeringen viser det, at det er vigtigt at tydeligt angive dine antagelser inden analysen påbegyndes. Lad os sige, at du har $ n $ datapunkter i $ k $ grupper, vil vi betegne det som $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, hvor $ i $ -th indekset i $ x_ {i, j} $ står for sager og $ j $ -th indeks står for gruppeindekser. Der er flere scenarier mulige, du kan antage, at alle punkterne kommer fra den samme fordeling (for nemheds skyld antager vi normalfordeling),

$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$

du kan antage, at hver af undereksemplerne har sit eget gennemsnit

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

eller dens egen varians

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

eller hver af dem har deres egne, forskellige parametre

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

Afhængigt af dine antagelser kan en bestemt metode være, eller er muligvis ikke tilstrækkelig til at analysere dataene.

I det første tilfælde ville du ikke være interesseret i at estimere variationerne inden for gruppen, da du antager, at de alle er ens. Ikke desto mindre, hvis du aggregerede den globale varians fra gruppeafvigelserne, ville du få det samme resultat som ved at bruge samlet varians, da definitionen af varians er

$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$

og i en samlet estimator multiplicerer du det først med $ n-1 $, derefter sammenlægges og til sidst divideres med $ n_1 + n_2 – 1 $.

I det andet tilfælde betyder det forskelligt, men du har en fælles varians. Dette eksempel er tættest på dit eksempel i redigeringen. I dette scenarie ville den samlede varians korrekt estimere den globale varians, mens hvis estimeret varians på hele datasættet, ville du få forkerte resultater, da du ikke tog højde for, at grupperne har forskellige midler .

I det tredje tilfælde giver det ikke mening at estimere den “globale” varians, da du antager, at hver af grupperne har sin egen varians.Du kan stadig være interesseret i at få estimatet for hele befolkningen, men i så fald beregner både (a) de individuelle afvigelser pr. Gruppe og (b) beregning af den globale varians fra hele datasættet, kan give dig vildledende resultater . Hvis du har at gøre med denne type data, skal du overveje at bruge en mere kompliceret model, der tegner sig for den hierarkiske karakter af dataene.

Den fjerde sag er den mest ekstreme og ligner den foregående. I dette scenarie, hvis du ville estimere det globale gennemsnit og varians, ville du have brug for en anden model og et andet sæt antagelser. I et sådant tilfælde antager du, at dine data er af hierarkisk struktur, og udover middelværdierne og variationerne inden for gruppen er der en fælles variation på højere niveau, for eksempel under forudsætning af følgende model

$$ \ start {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

hvor hver prøve har sine egne midler og afvigelser $ \ mu_j, \ sigma ^ 2_j $, der selv trækker fra almindelige distributioner. I et sådant tilfælde vil du bruge en hierarkisk model, der tager hensyn til både nedre og øvre niveau variabilitet. For at læse mere om denne type modeller kan du tjekke Bayesian Data Analysis bogen af Gelman et al. og deres eksempel på otte skoler . Dette er dog meget mere kompliceret model end den simple poolede variansestimator.

Kommentarer

  • Jeg har opdateret mit spørgsmål med et andet eksempel. I dette tilfælde er svaret fra ” litteratur ‘ s formel ” stadig forkert. Jeg forstår, at vi normalt har at gøre med ” normale data ” hvor der ikke er noget ekstremt tilfælde som mit eksempel ovenfor. Som matematikere bør du dog ikke ‘ t er ligeglad med, hvilken formel der faktisk er korrekt, i stedet for hvilken formel der gælder i ” hverdagslige / almindelige problemer “? Hvis en formel er grundlæggende forkert, skal den kasseres, især hvis der er en anden formel, der i alle tilfælde holder, patologisk eller ej.
  • Btw du sagde, der er mere komplicerede måder at estimere varians. Kunne du vise mig disse måder? Tak
  • Tim, samlet varians er ikke den samlede varians for den ” kombinerede prøve “. I statistik betyder ” samlet ” vægtet gennemsnit (når vi taler om gennemsnitlige størrelser som varianter, vægte at være n ‘ s) eller bare opsummeret (når vi taler om summer som scatter, sum-of-squares) . Vær venlig at overveje din terminologi (ordvalg) i svaret.
  • Selvom det ikke er det aktuelle emne, er her et interessant spørgsmål om ” fælles ” varianskoncept. stats.stackexchange.com/q/208175/3277
  • Hanciong. Jeg insisterer på, at ” samlet ” generelt og endog specifikt ” samlet varians ” konceptet behøver generelt ikke nogen antagelse, såsom: grupper kom fra populationer med lige store afvigelser. Pooling er simpelthen blanding (vægtet gennemsnit eller summering). Det er under ANOVA og lignende omstændigheder, at vi tilføjer den statistiske antagelse.

Svar

Problemet er, hvis du sammenkæder bare prøverne og estimerer dens varians, idet du antager, at de er fra den samme fordeling, derfor har det samme gennemsnit. Men vi er generelt interesserede i flere prøver med forskellige gennemsnit. Er det fornuftigt?

Svar

Brugstilfælde af samlet varians er, når du har to eksempler fra distributioner, der:

  • kan have forskellige midler, men
  • som du forventer at have en lige sand varians.

Et eksempel på dette er en situation, hvor du måler længden af Alice s næse $ n $ gange for en prøve, og måler længden af Bobs næse $ m $ gange for den anden. Disse vil sandsynligvis producere en masse forskellige målinger på skalaen millimeter på grund af målefejl. Men du forventer, at variansen i målefejl er den samme, uanset hvilken næse du måler.

I dette tilfælde vil det at tage den samlede varians give dig et bedre skøn over variansen i målefejl end at tage variansen af en prøve alene.

Kommentarer

  • Tak for dit svar, men jeg forstår stadig ikke ‘ om en ting . De første data giver dig variansen med hensyn til Alice ‘ s næselængde, og den anden data giver dig variansen med hensyn til Bob ‘ s næselængde. Hvis du beregner en samlet varians ud fra disse data, hvad betyder det egentlig? Fordi den første varians måler variationen med hensyn til Alice ‘ s, og den anden med hensyn til Bob ‘ s, så hvad yderligere oplysninger kan vi få ved at beregne deres samlede varians? De er helt forskellige tal.

Svar

Gennem samlet varians prøver vi ikke at estimere variansen af en større prøve ved hjælp af mindre prøver. Derfor refererer de to eksempler, du gav, ikke nøjagtigt til spørgsmålet.

Det er nødvendigt med en samlet varians for at få et bedre skøn over populationsvariansen fra to prøver, der er tilfældigt taget fra denne population og kommer op med forskellige variansestimater.

Eksempel, du prøver at måle varians i mænds rygevaner i London. Du prøver to gange, 300 mænd fra London. Du ender med at få to afvigelser (sandsynligvis lidt anderledes Siden du nu foretog en rimelig tilfældig stikprøve (bedst efter din evne! Da sand tilfældig prøveudtagning næsten er umulig), har du alle rettigheder til at sige, at begge afvigelser er ægte punktestimater for befolkningsvarians (London-mænd i dette case).

Men hvordan er det muligt? dvs. to forskellige pointestimater !! Således går vi videre og finder et fælles pointestimat, som er samlet varians. Det er ikke andet end et vægtet gennemsnit af to-pointestimater, hvor vægtene er den frihedsgrad, der er knyttet til hver prøve.

Håber dette afklarer.

Svar

Selvom jeg er meget sent til samtalen, kan jeg måske tilføje noget nyttigt:
Det ser ud til mig at OP ønsker at vide, hvorfor (hvad til) vi har brug for et samlet variabilitetsestimat $ \ hat \ sigma_ {pooled} $ som et vægtet gennemsnit af to prøver (være det varians eller standardafvigelse).

Så vidt jeg ved, er det vigtigste praktisk behov for dette slags spredningsmåling opstår ved at ønske at sammenligne midlerne til (under-) grupper: så hvis jeg vil sammenligne den gennemsnitlige næselængde for 1) mennesker, der ikke gennemgik genterapi, 2) personer, der gennemgik genterapi A og 3) mennesker, der gennemgik genterapi B.
For bedre at kunne sammenligne mængden af de gennemsnitlige forskelle i længde (mm) deler jeg den gennemsnitlige forskel, siger, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ ved variabilitetsestimatet (her standardafvigelse ation). Afhængig af størrelsen på kvadratroden af den samlede variation (samlet standardafvigelse) kan vi bedre bedømme størrelsen på 2 mm forskellen mellem disse grupper (f.eks. $ d = 2 mm / 0,5 mm = 4 $ vs. $ d = 2mm / 4mm = 0,5 $ – > Gør genterapi A noget i næsens længde? Og hvis ja, hvor meget? Når $ d = 4 $ eller $ 2 \ pm 0,5 mm $ der synes at være en ” stabil ” eller ” konsekvent ” eller ” stor ” (sammenlignet med variabiliteten) forskel mellem den gennemsnitlige næselængde, når $ d = 0.5 $ eller $ 2 \ pm 4 mm $ ser det ikke så meget ud, relativt set. case alle værdier inden for begge grupper er ens, og derfor er der ingen variabilitet med hin grupper $ d $ ville ikke blive defineret, men fortolkningen ville være $ 2 \ pm 0mm = 2mm $ nøjagtigt.
Dette er ideen om effektstørrelse (først teoretisk introduceret af Neyman og Pearson så vidt jeg ved, men i en eller anden art brugt godt før, se Stigler, 1986 , for eksempel).
Så hvad jeg laver, er at sammenligne den gennemsnitlige forskel mellem grupper med de gennemsnitlige forskelle inden for de samme grupper, dvs. vægtet gennemsnit af afvigelser (standardafvigelser). Dette giver mere mening end at sammenligne den gennemsnitlige forskel mellem (under-) grupper med den gennemsnitlige forskel inden for ” hele ” -gruppen, fordi , som du (Hanciong) har vist, indeholder variansen (og standardafvigelsen) for hele gruppen også forskellen (e) i gruppens middelværdi.

teoretisk behovet for foranstaltningen stammer fra at kunne bruge $ t $ -fordeling for at finde sandsynligheden for den observerede gennemsnitlige forskel eller en mere ekstrem, givet en forventet værdi for den gennemsnitlige forskel (p-værdi for f.eks. Null-Hypothesis-Significance-Test , NHST eller Neyman-Pearson hypotesetest eller Fisher hypotesetest, konfidensintervaller osv.): $ p (e \ ge e_ {observeret} | \ mu_e = 0) $ .
Så vidt jeg ved, er p-værdien opnået af $ t $ -distribution (og især $ F $ -fordeling i tilfælde med mere end 2 måder at sammenligne) giver kun korrekte estimater for sandsynligheden, når begge (eller alle) prøverne er trukket fra populationer med lige store afvigelser (homogenitet af varians, som påpeget i de andre svar allerede; dette skal beskrives i (flere) detaljer i m ost statistik lærebøger). Jeg tror, at alle distributioner er baseret på normalfordelingen ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) antager en varians på mere end 0 og mindre end $ \ infty $ , så det ville være umuligt at finde p-værdien for en sag med en variation inden for 0 (i dette tilfælde antager du naturligvis ikke at have trukket din prøve fra en normalfordeling).
(Dette synes også intuitivt rimeligt: hvis jeg vil for at sammenligne to eller flere midler, så skal præcisionen af disse midler være den samme eller i det mindste sammenlignelig:
hvis jeg kører min genterapi A på mennesker, hvis næselængder er ret ens, siger $ \ bar x \ pm 0.5mm $ men har en gruppe mennesker med stor variation i næselængder i min kontrolgruppe, sig $ \ bar x \ pm 4mm $ det virker ikke rimeligt at sammenligne disse midler direkte, fordi disse midler ikke har den samme ” betyder-betydning “; faktisk kunne den meget højere variation / standardafvigelse i min kontrolgruppe indikere yderligere undergrupper, måske forskelle i næselængder på grund af forskelle på et eller andet gen.)

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *