Hva betyr samlet avvik “ egentlig ”?

Jeg er en noob i statistikk, så kan dere hjelpe meg her.

Spørsmålet mitt er følgende: Hva gjør samlet varians faktisk betyr?

Når jeg ser etter en formel for samlet varians på internett, finner jeg mye litteratur ved å bruke følgende formel (for eksempel her: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

\ begin {ligning} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {ligning}

Men hva gjør det faktisk beregne? Fordi når jeg bruker denne formelen for å beregne den samlede variansen min, gir det meg feil svar.

Tenk for eksempel på disse «foreldreeksemplet»:

\ begin {ligning} \ label { eq: foreldreeksempel} 2,2,2,2,2,8,8,8,8,8 \ end {ligning}

Variansen til dette overordnede eksemplet er $ S ^ 2_p = 10 $, og gjennomsnittet er $ \ bar {x} _p = 5 $.

Anta at jeg deler denne overordnede prøven i to underprøver:

  1. Den første delprøven er 2,2,2,2,2 med gjennomsnittlig $ \ bar {x} _1 = 2 $ og varians $ S ^ 2_1 = 0 $.
  2. Den andre delprøven er 8,8,8,8,8 med gjennomsnittlig $ \ bar {x} _2 = 8 $ og varians $ S ^ 2_2 = 0 $.

Nå, tydelig, ved å bruke ovennevnte formel for å beregne den samlede / overordnede variansen til disse to delprøvene, blir det null fordi $ S_1 = 0 $ og $ S_2 = 0 $. Så hva beregner denne formelen faktisk ?

På den annen side, etter en langvarig avledning, fant jeg formelen som produserer riktig samlet / foreldreavvik er:

\ begin {ligning} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {ligning}

I formelen ovenfor, $ d_1 = \ bar {x_1} – \ bar {x} _p $ og $ d_2 = \ bar {x_2 } – \ bar {x} _p $.

Jeg fant en lignende formel med min, for eksempel her: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html og også på Wikipedia. Selv om jeg må innrømme at de ikke ser nøyaktig ut som mine.

Så igjen, hva betyr samlet varians egentlig? Skal det ikke bety variansen til foreldreprøven fra de to delprøvene ? Eller har jeg helt feil her?

Takk på forhånd.


REDIGERING 1: Noen sier at mine to delprøver ovenfor er patologiske siden de har null varians. Vel, jeg kan gi deg et annet eksempel. Tenk på dette overordnede eksemplet:

\ begin {equation} \ label {eq: parentample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}

Avviket til dette overordnede eksemplet er $ S ^ 2_p = 564,7 $, og gjennomsnittet er $ \ bar {x} _p = 25,5 $.

Anta at jeg deler denne overordnede prøven i to delprøver:

  1. Den første delprøven er 1,2,3,4,5 med gjennomsnittlig $ \ bar {x} _1 = 3 $ og varians $ S ^ 2_1 = 2,5 $.
  2. Den andre delprøven er 46,47,48,49,50 med gjennomsnittlig $ \ bar {x} _2 = 48 $ og varians $ S ^ 2_2 = 2,5 $.

Nå, hvis du bruker «litteraturens formel» for å beregne den samlede variansen, får du 2,5, som er helt feil, fordi den overordnede / samlede avviket skal være 564,7. I stedet, hvis du bruker «min formel», vil du få riktig svar.

Vær så snill å forstå, jeg bruker ekstreme eksempler her for å vise folk at formelen faktisk er feil. Hvis jeg bruker «normale data» som ikke har mange variasjoner (ekstreme tilfeller), vil resultatene fra de to formlene være veldig like, og folk kan avvise forskjellen på grunn av avrundingsfeil, ikke fordi selve formelen er feil.

Kommentarer

Svar

Enkelt sagt er den samlede variansen et (objektivt) estimat av variansen i hvert utvalg, under antagelse / begrensning om at disse avvikene er like.

Dette blir forklart, motivert og analysert i detalj i Wikipedia-oppføringen for samlet varians .

Det gjør ikke estimerer variansen til en ny» meta-prøve «dannet ved å sammenkoble de to individuelle prøvene, slik du antok. Som du allerede har oppdaget, krever estimering en helt annen formel.

Kommentarer

  • Antagelsen om » likhet » (det vil si at samme populasjon innså disse prøvene) er ikke nødvendig generelt for å definere hva det er – » samlet «. Pooled betyr ganske enkelt gjennomsnitt, omnibus (se min kommentar til Tim).
  • @ttnphns Jeg tror likhetsforutsetningen er nødvendig for å gi den samlede variansen en konseptuell betydning (som OP ba om) som går utover bare verbalt beskriver den matematiske operasjonen den utfører på prøvevariansene. Hvis populasjonsavvikene ikke antas like, er det ‘ uklart hva vi kan betrakte den samlede variansen som et estimat på. Selvfølgelig kunne vi bare tenke på det som en sammensmelting av de to avvikene og la det være, men at ‘ knapt er opplysende i fravær av noen motivasjon for å ville kombinere avvikene i utgangspunktet.
  • Jake, jeg ‘ Jeg er ikke uenig i det, gitt det spesifikke spørsmålet om OP, men jeg ønsket å snakke om definisjon av ordet » samlet «, at ‘ er hvorfor jeg sa, » generelt «.
  • @JakeWestfall Ditt svar er det beste svaret så langt. Takk skal du ha. Selv om jeg fremdeles ikke er klar over en ting. I følge Wikipedia er samlet varians en metode for å estimere varians av flere forskjellige populasjoner når gjennomsnittet for hver populasjon kan være forskjellig , men man kan anta at variansen av hver populasjon er den samme .
  • @JakeWestfall: Så hvis vi beregner samlet varians fra to forskjellige populasjoner med forskjellige midler, hva beregner det egentlig? Fordi den første variansen måler variasjonen med hensyn til det første gjennomsnittet, og den andre variansen er med hensyn til det andre gjennomsnittet. Jeg vet ikke ‘ hvilken tilleggsinformasjon som kan oppnås ved å beregne den.

Svar

Sammenslått varians brukes til å kombinere avvik fra forskjellige prøver ved å ta det vektede gjennomsnittet for å få den «samlede» avviket. Problemet med eksemplet ditt er at det er et patologisk tilfelle, siden hver av delprøvene har varians lik null. Slike patologiske tilfeller har veldig lite til felles med dataene vi vanligvis møter, siden det alltid er noe variabilitet, og hvis det ikke er variasjon, bryr vi oss ikke om slike variabler siden de ikke har noen informasjon. Du må legge merke til at dette er en veldig enkel metode, og det er mer kompliserte måter å estimere avvik i hierarkiske datastrukturer som ikke er utsatt for slike problemer.

Som om eksemplet ditt i redigeringen, viser det at det er viktig å tydelig angi antagelsene dine før vi starter analysen. La oss si at du har $ n $ datapunkter i $ k $ grupper, vil vi betegne det som $ x_ {1,1}, x_ {2,1}, \ prikker, x_ {n- 1, k}, x_ {n, k} $, hvor $ i $ -th-indeksen i $ x_ {i, j} $ står for case og $ j $ -th index står for gruppeindekser. Det er flere scenarier mulig, du kan anta at alle punktene kommer fra den samme fordelingen (for enkelhets skyld, la oss anta normalfordeling),

$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$

du kan anta at hver av delprøvene har sitt eget gjennomsnitt

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

eller, dens egen avvik

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

eller, hver av dem har sine egne, forskjellige parametere

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

Avhengig av antagelsene dine, kan en bestemt metode, eller er kanskje ikke tilstrekkelig for å analysere dataene.

I det første tilfellet vil du ikke være interessert i å estimere avvikene i gruppen, siden du antar at de alle er de samme. Likevel, hvis du samlet den globale variansen fra gruppeavvikene, ville du få det samme resultatet som ved å bruke samlet varians siden definisjonen av varians er

$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$

og i en samlet estimator multipliserer du den først med $ n-1 $, deretter legger du sammen og til slutt dividerer med $ n_1 + n_2 – 1 $.

I det andre tilfellet betyr det forskjellig, men du har en felles varians. Dette eksemplet er nærmest eksemplet ditt i redigeringen. I dette scenariet vil den samlede variansen riktig estimere den globale variansen, mens hvis estimert varians på hele datasettet, vil du oppnå feil resultater, siden du ikke regnskapsførte det faktum at gruppene har forskjellige midler .

I det tredje tilfellet er det ikke fornuftig å estimere den «globale» avviket siden du antar at hver av gruppene har sin egen avvik.Du kan fremdeles være interessert i å skaffe estimatet for hele befolkningen, men i slike tilfeller både (a) beregne de individuelle avvikene per gruppe, og (b) beregne den globale variasjonen fra hele datasettet, kan gi deg misvisende resultater . Hvis du har å gjøre med denne typen data, bør du tenke på å bruke mer komplisert modell som tar hensyn til den hierarkiske naturen til dataene.

Den fjerde saken er den mest ekstreme og ganske lik den forrige. I dette scenariet, hvis du ønsker å estimere det globale gjennomsnittet og variansen, trenger du en annen modell og et annet sett med forutsetninger. I slike tilfeller vil du anta at dataene dine har hierarkisk struktur, og i tillegg til middelverdiene og avvikene innenfor gruppen, er det en felles variasjon på høyere nivå, for eksempel forutsatt at følgende modell

$$ \ begynn {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

der hver prøve har sine egne midler og avvik $ \ mu_j, \ sigma ^ 2_j $ som i seg selv trekker fra vanlige distribusjoner. I slike tilfeller vil du bruke en hierarkisk modell som tar hensyn til både nedre og øvre nivåvariabilitet. For å lese mer om denne typen modeller, kan du sjekke Bayesian Data Analysis boka av Gelman et al. og deres eksempel på åtte skoler . Dette er imidlertid mye mer komplisert modell enn den enkle samlede variansestimatoren.

Kommentarer

  • Jeg har oppdatert spørsmålet mitt med annet eksempel. I dette tilfellet er svaret fra » litteratur ‘ s formel » fortsatt feil. Jeg forstår at vi vanligvis har å gjøre med » normale data » der det ikke er noen ekstreme tilfeller som eksemplet mitt ovenfor. Som matematikere bør du imidlertid ikke ‘ t bryr deg om hvilken formel som faktisk er riktig, i stedet for hvilken formel som gjelder i » hverdags / vanlig problem «? Hvis noen formler er fundamentalt feil, bør den kastes, spesielt hvis det er en annen formel som i alle tilfeller holder, patologisk eller ikke.
  • Btw du sa at det er mer kompliserte måter for å estimere avvik. Kan du vise meg disse måtene? Takk
  • Tim, samlet varians er ikke total varians for » kombinert utvalg «. I statistikk betyr » samlet » vektet gjennomsnitt (når vi snakker om gjennomsnittlige størrelser som avvik, vekter å være n ‘ s) eller bare oppsummert (når vi snakker om summer som scattere, sum-of-squares) . Vær så snill å vurdere terminologien din (valg av ord) på nytt i svaret.
  • Selv om det er utenfor det aktuelle emnet, er det et interessant spørsmål om » vanlig » varianskonsept. stats.stackexchange.com/q/208175/3277
  • Hanciong. Jeg insisterer på at » samlet » generelt og til og med spesifikt » samlet varians » konseptet trenger generelt ikke noen antagelse som: grupper kom fra populasjoner med like avvik. Pooling er bare å blande (vektet gjennomsnitt eller summering). Det er under ANOVA og lignende omstendigheter at vi legger til den statistiske antagelsen.

Svar

Problemet er hvis Du sammenkjøper bare prøvene og estimerer variansen. Du antar at de kommer fra samme fordeling og har samme gjennomsnitt. Men vi er generelt interessert i flere prøver med forskjellig gjennomsnitt. Er dette fornuftig?

Svar

Brukstilfellet for samlet varians er når du har to eksempler fra distribusjoner som:

  • kan ha forskjellige midler, men
  • som du forventer å ha lik sant varians.

Et eksempel på dette er en situasjon der du måler lengden på Alice nese $ n $ ganger for en prøve, og måler lengden på Bobs nese $ m $ ganger for den andre. Disse vil sannsynligvis produsere en rekke forskjellige målinger på skalaen millimeter på grunn av målefeil. Men du forventer at avviket i målefeil er det samme uansett hvilken nese du måler.

I dette tilfellet vil det å ta den samlede variansen gi deg et bedre estimat på variansen i målefeil enn å ta variansen av ett utvalg alene.

Kommentarer

  • Takk for svaret ditt, men jeg forstår fortsatt ikke ‘ om en ting . De første dataene gir deg avvik med hensyn til Alice ‘ s neselengde, og de andre dataene gir deg avvik med hensyn til Bob ‘ s neselengde. Hvis du beregner en samlet avvik fra disse dataene, hva betyr det egentlig? Fordi den første variansen måler variasjonen med hensyn til Alice ‘ s, og den andre med hensyn til Bob ‘ s, så hva ekstra informasjon kan vi få ved å beregne deres samlede varians? De er helt forskjellige tall.

Svar

Gjennom samlet varians prøver vi ikke å estimere variansen til en større prøve, ved hjelp av mindre prøver. Derfor refererer de to eksemplene ikke nøyaktig til spørsmålet.

Det er nødvendig å samle varians for å få et bedre estimat av populasjonsvariansen, fra to prøver som er tatt tilfeldig fra den populasjonen og kommer opp med forskjellige variansestimater.

Eksempel, du prøver å måle avvik i røykevanene til menn i London. Du prøver to ganger, 300 menn fra London. Du ender opp med å få to avvik (sannsynligvis litt annerledes Siden du gjorde en rettferdig stikkprøve (best for din evne! Ettersom ekte stikkprøve er nesten umulig), har du alle rettighetene til å si at begge avvikene er sanne poengestimater av populasjonsvarians (London menn i dette case).

Men hvordan er det mulig? dvs. to forskjellige poengestimater !! Dermed fortsetter vi og finner et felles poengestimat som er samlet varians. Det er ikke annet enn vektet gjennomsnitt av topunktsestimater, der vektene er graden av frihet knyttet til hvert utvalg.

Håper dette avklares.

Svar

Selv om jeg er veldig sen i samtalen, kan jeg kanskje legge til noe nyttig:
Det virker for meg at OP vil vite hvorfor (hva for) vi trenger et samlet variabilitetsestimat $ \ hat \ sigma_ {pooled} $ som et veid gjennomsnitt på to prøver (være det varians eller standardavvik).

Så vidt jeg er klar over er det viktigste praktisk behovet for dette slags spredningstiltak oppstår fra å ønske å sammenligne middel for (under-) grupper: så hvis jeg vil sammenligne gjennomsnittlig neselengde for 1) personer som ikke gjennomgikk genterapi, 2) personer som gjennomgikk genterapi A og 3) mennesker som gjennomgikk genterapi B.
For å bedre kunne sammenligne mengden av de gjennomsnittlige forskjellene i lengde (mm), deler jeg gjennomsnittsforskjellen, si, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ av variabilitetsestimatet (her standardavvik ation). Avhengig av størrelsen på kvadratroten av samlet varians (samlet standardavvik) kan vi bedre bedømme størrelsen på 2 mm forskjellen mellom disse gruppene (f.eks. $ d = 2 mm / 0,5 mm = 4 $ vs. $ d = 2mm / 4mm = 0,5 $ – > Gjør genterapi A noe i neselengden? Og i så fall hvor mye? Når $ d = 4 $ eller $ 2 \ pm 0.5mm $ det ser ut til å være » stabil » eller » konsekvent » eller » stor » (sammenlignet med variabiliteten) forskjell mellom gjennomsnittlig neselengde når $ d = 0.5 $ eller $ 2 \ pm 4mm $ det virker ikke så mye, relativt sett. tilfelle alle verdiene i begge gruppene er like, og det er derfor ingen variabilitet hin gruppene, $ d $ ville ikke være definert, men tolkningen ville være $ 2 \ pm 0mm = 2mm $ nøyaktig).
Dette er ideen om effektstørrelse (først teoretisk introdusert av Neyman og Pearson så vidt jeg vet, men i en eller annen art brukt godt før, se Stigler, 1986 , for eksempel).
Så det jeg gjør er å sammenligne gjennomsnittsforskjellen mellom grupper med gjennomsnittsforskjellene innenfor de samme gruppene, dvs. vektet gjennomsnitt av avvik (standardavvik). Dette er mer fornuftig enn å sammenligne gjennomsnittsforskjellen mellom (under-) grupper med gjennomsnittsforskjellen i » hele » -gruppen, fordi , som du (Hanciong) har vist, inneholder avviket (og standardavviket) for hele gruppen også differansen (ene) for gruppemidlene.

teoretisk behovet for tiltaket oppstår fra å kunne bruke $ t $ -fordeling for å finne sannsynligheten for den observerte gjennomsnittsforskjellen eller en mer ekstrem, gitt noen forventet verdi for gjennomsnittsforskjellen (p-verdi for f.eks. Null-Hypothesis-Significance-Test , NHST eller Neyman-Pearson hypotesetest eller Fisher hypotesetest, konfidensintervaller osv.): $ p (e \ ge e_ {observerte} | \ mu_e = 0) $ .
Så vidt jeg vet er p-verdien oppnådd av $ t $ -distribusjon (og spesielt $ F $ -distribusjon i tilfeller med mer enn 2 måter å sammenligne) gir riktige estimater for sannsynligheten bare når begge (eller alle) prøvene er hentet fra populasjoner med like avvik (homogenitet av varians, som påpekt i de andre svarene allerede; dette skal beskrives i (flere) detaljer i m ost statistikk lærebøker). Jeg tror alle distribusjoner er basert på normalfordelingen ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) antar en varians på mer enn 0 og mindre enn $ \ infty $ , så det ville være umulig å finne p-verdien for en sak med en variasjon på 0 (i dette tilfellet vil du åpenbart ikke anta at du har trukket prøven din fra en normalfordeling).
(Dette virker også intuitivt rimelig: hvis jeg vil for å sammenligne to eller flere midler, så bør presisjonen til disse midlene være den samme eller i det minste sammenlignbar:
hvis jeg kjører genterapi A på mennesker med neselengder som er ganske like, si $ \ bar x \ pm 0.5mm $ men har en gruppe mennesker med høy variasjon i neselengder i kontrollgruppen min, si $ \ bar x \ pm 4mm $ det virker ikke rettferdig å sammenligne disse midlene direkte, fordi disse midlene ikke har den samme » betyr-betydning «; faktisk den veldig mye høyere variansen / standardavviket i kontrollgruppen min kan indikere ytterligere undergrupper, kanskje forskjeller i neselengder på grunn av forskjeller på noe gen.)

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *