Olen noob tilastoissa, joten voisitteko auttaa minua täällä.
Kysymykseni on seuraava: Mitä yhdistetty varianssi todella tarkoittaa?
Kun etsin Internetissä kaavan yhdistetylle varianssille, löydän paljon kirjallisuutta käyttäen seuraavaa kaavaa (esimerkiksi täällä: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
\ begin {yhtälö} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {yhtälö}
Mutta mitä se tekee todella laskea? Koska kun käytän tätä kaavaa yhdistetyn varianssin laskemiseen, se antaa minulle väärän vastauksen.
Harkitse esimerkiksi näitä ”pääesimerkki”:
\ begin {equation} \ label { eq: vanhempien näyte} 2,2,2,2,2,8,8,8,8,8 \ end {yhtälö}
Tämän ylätason varianssi on $ S ^ 2_p = 10 $, ja sen keskiarvo on $ \ bar {x} _p = 5 $.
Oletetaan, että jaan tämän vanhemman otoksen kahteen alinäytteeseen:
- Ensimmäinen alinäyte on 2,2,2,2,2, keskiarvo $ \ pylväs {x} _1 = 2 $ ja varianssi $ S ^ 2_1 = 0 $.
- Toinen alinäyte on 8,8,8,8,8, keskimääräinen $ \ bar {x} _2 = 8 $ ja varianssi $ S ^ 2_2 = 0 $.
Nyt selvästi, käyttämällä edellä olevaa kaavaa näiden kahden alinäytteen yhdistetyn / vanhemman varianssin laskemiseksi, saadaan nolla, koska $ S_1 = 0 $ ja $ S_2 = 0 $. Joten mitä tämä kaava todella laskee?
Toisaalta löysin jonkin verran pitkän johdannan jälkeen kaavan, joka tuottaa oikean yhdistetyn / vanhemman varianssin:
\ begin {yhtälö} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {yhtälö}
Yllä olevassa kaavassa $ d_1 = \ bar {x_1} – \ bar {x} _p $ ja $ d_2 = \ bar {x_2 } – \ bar {x} _p $.
Löysin samanlaisen kaavan omistani, esimerkiksi täältä: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html ja myös Wikipediassa. Vaikka minun on myönnettävä, että ne eivät näytä aivan samanlaisilta kuin minun.
Joten jälleen, mitä yhdistetty varianssi todella tarkoittaa? Pitäisikö sen tarkoittaa kahden alinäytteen vanhemman otoksen varianssia ? Tai olen täällä täysin väärässä?
Kiitos etukäteen.
MUOKKAA 1: Joku sanoo, että yllä olevat kaksi alinäytettäni ovat patologisia, koska niillä ei ole varianssia. Voisin antaa teille toisen esimerkin. Harkitse tätä vanhemmaesimerkkiä:
\ begin {equation} \ label {eq: parentample2} 1,2,3,4,5,46,47,48,49,50 \ end {yhtälö}
Tämän ylätason näytteen varianssi on $ S ^ 2_p = 564.7 $ ja sen keskiarvo on $ \ bar {x} _p = 25.5 $.
Oletetaan, että jaan tämän vanhemman otoksen kahteen alinäytteeseen:
- Ensimmäinen alinäyte on 1,2,3,4,5, keskiarvo $ \ bar {x} _1 = 3 $ ja varianssi $ S ^ 2_1 = 2,5 $.
- Toinen alinäyte on 46,47,48,49,50, keskiarvo $ \ bar {x} _2 = 48 $ ja varianssi $ S ^ 2_2 = 2,5 $.
Jos nyt lasket yhdistetyn varianssin ”kirjallisuuden” kaavan avulla, saat arvon 2,5, mikä on täysin väärin, koska ylätason / yhdistetyn varianssin tulisi olla 564,7. Jos käytät ”minun kaava”, saat oikean vastauksen.
Ymmärrä, käytän tässä äärimmäisiä esimerkkejä osoittaakseni ihmisille, että kaava on todella väärä. Jos käytän ”normaalia dataa”, jolla ei ole paljon muunnelmia (äärimmäisissä tapauksissa), niin näiden kahden kaavan tulokset ovat hyvin samanlaisia, ja ihmiset voisivat hylätä erotuksen pyöristysvirheen takia, ei siksi, että kaava itsessään on väärä.
Kommentit
- Joitakin aiheeseen liittyviä linkkejä: stats.stackexchange.com/q / 214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q / 43159/3277 .
- Tilastotieteen opiskelijana mielestäni ensimmäistä fomulaa käytetään arvioimaan kahden otoskeskiarvon eron varianssi, jotta voit muodostaa Z- tilastot ~ N (0,1) Null-hypoteesin alla. Toinen kaava on kuitenkin kahden näytteen ketjutuksen varianssi. Jos haluamme erottaa heidät paitsi kirjaimellisesta näkökulmasta myös niiden toiminnallisuudesta .
Vastaa
Yksinkertaisesti sanottuna yhdistetty varianssi on (puolueeton) estimaatti kunkin otoksen varianssista, olettaen / rajoittaessa, että nämä varianssit ovat samat.
Tämä selitetään, motivoidaan ja analysoidaan yksityiskohtaisesti Wikipedia-merkinnässä yhdistetylle varianssille .
Se tekee not arvioi uuden” metanäytteen ”varianssi, joka muodostetaan yhdistämällä kaksi yksittäistä näytettä, kuten luulit. Kuten olet jo huomannut, estimointi vaatii täysin toisenlaisen kaavan.
kommentit
- Oletus ” tasa-arvosta ” (eli sama populaatio toteutti nämä näytteet) ei ole tarpeen yleensä määritellä mikä se on – ” yhdistetty ”. Yhdistetty tarkoittaa yksinkertaisesti keskimääräistä, omnibussia (katso kommenttini Timille).
- @ttnphns Mielestäni tasa-arvo-oletus on välttämätön, jotta yhdistetylle varianssille saadaan käsitteellinen merkitys (jota OP pyysi), joka ylittää vain suullisesti kuvataan matemaattinen operaatio, jonka se suorittaa näytevaihteluille. Jos populaatioeroja ei oleteta yhtä suuriksi, ’ on epäselvää, mitä voimme pitää yhdistetyn varianssin estimaattina. Voisimme tietysti ajatella sen olevan kahden varianssin yhdistelmä ja jättää se siihen, mutta se ’ tuskin valaiseva, jos ei ole motivaatiota yhdistää haluavansa varianssit.
- Jake, en ’ ole eri mieltä siitä, ottaen huomioon toimenpideohjelman erityiskysymyksen, mutta halusin puhua sanan määritelmä ” yhdistetty ”, että ’ s miksi sanoin, ” yleensä ”.
- @JakeWestfall Vastauksesi on tähän mennessä paras vastaus. Kiitos. Vaikka en ole vieläkään selvä yhdestä asiasta. Wikipedian mukaan yhdistetty varianssi on menetelmä useiden eri populaatioiden varianssin arvioimiseksi, kun kunkin populaation keskiarvo voi olla erilainen , mutta voidaan olettaa, että varianssi Kunkin populaation on sama .
- @JakeWestfall: Joten jos laskemme kahden eri populaation yhdistettyä varianssia eri tavoin, mitä se todella laskee? Koska ensimmäinen varianssi mittaa vaihtelua ensimmäisen keskiarvon suhteen ja toinen varianssi on toisen keskiarvon suhteen. En tiedä ’ en tiedä, mitä lisätietoja sen laskemisesta voi saada.
Vastaa
Yhdistettyä varianssia käytetään yhdistämään eri näytteiden varianssit ottamalla niiden painotettu keskiarvo, jolloin saadaan ”kokonaisvarianssi”. Esimerkkisi ongelma on, että kyseessä on patologinen tapaus, koska jokaisella alinäytteellä on varianssi yhtä suuri kuin nolla. Tällaisella patologisella tapauksella on hyvin vähän yhteistä tavallisesti kohtaamiemme tietojen kanssa, koska vaihtelua on aina jonkin verran, ja jos vaihtelua ei ole, emme välitä tällaisista muuttujista, koska ne eivät sisällä mitään tietoa. hyvin yksinkertainen menetelmä ja hierarkkisten tietorakenteiden varianssin arvioimiseksi on monimutkaisempia tapoja, jotka eivät ole alttiita tällaisille ongelmille.
Mitä tulee esimerkkiin muokkauksessa, se osoittaa, että on tärkeää ilmaista oletuksesi selkeästi ennen analyysin aloittamista. Sanotaan, että sinulla on $ n $ datapistettä $ k $ -ryhmissä, merkitsemme sitä nimellä $ x_ {1,1}, x_ {2,1}, \ pisteitä, x_ {n- 1, k}, x_ {n, k} $, jossa $ i $ -th-indeksi dollareissa $ x_ {i, j} $ tarkoittaa tapauksia ja $ j $ -th-indeksi tarkoittaa ryhmäindeksejä. On olemassa useita skenaarioita, voit olettaa, että kaikki pisteet tulevat samasta jakaumasta (yksinkertaisuuden vuoksi olettakaamme normaalijakauman),
$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$
voit olettaa, että jokaisella alinäytteellä on oma keskiarvo
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$
tai oma varianssi
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$
tai jokaisella niistä on omat, erilliset parametrit
$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$
Oletuksistasi riippuen tietty menetelmä voi, tai ei välttämättä riitä tietojen analysointiin.
Ensimmäisessä tapauksessa et olisi kiinnostunut arvioimaan ryhmän sisäisiä variansseja, koska oletat, että ne kaikki ovat samat. Siitä huolimatta, jos yhdistät globaalin varianssin ryhmän variansseista, saat saman tuloksen kuin käyttämällä yhdistettyä varianssia, koska varianssin määritelmä on
$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$
ja yhdistetyssä estimaattorissa kerrot ensin sen arvolla $ n-1 $, lisäät sitten yhteen ja jaat lopuksi $ n_1 + n_2 – 1 $.
Toisessa tapauksessa merkitykset eroavat, mutta sinulla on yhteinen varianssi. Tämä esimerkki on lähinnä muokkauksesi esimerkkiä. Tässä skenaariossa yhdistetty varianssi oikein arvioi globaalin varianssin, kun taas jos arvioidaan varianssi koko tietojoukolle, saat virheellisiä tuloksia, koska et ottanut huomioon sitä, että ryhmillä on erilaiset keinot .
Kolmannessa tapauksessa ei ole järkevää arvioida ”globaalia” varianssia, koska oletat, että jokaisella ryhmällä on oma varianssi.Saatat silti olla kiinnostunut arvioiden saamisesta koko populaatiolle, mutta tällöin sekä (a) lasketaan yksittäiset varianssit ryhmäkohtaisesti että (b) lasketaan globaali varianssi koko tietojoukosta, voi tuottaa harhaanjohtavia tuloksia . Jos olet tekemisissä tällaisen datan kanssa, sinun kannattaa ajatella monimutkaisemman mallin käyttämistä, joka ottaa huomioon tietojen hierarkkisen luonteen.
Neljäs tapaus on äärimmäinen ja melko samanlainen kuin edellinen. Tässä tilanteessa, jos haluat arvioida globaalin keskiarvon ja varianssin, tarvitset toisen mallin ja erilaiset oletukset. Tällöin oletat, että tietosi ovat hierarkkisia ja että ryhmän sisäisten keskiarvojen ja varianssien lisäksi on korkeamman tason yhteinen varianssi, esimerkiksi olettaen seuraavan mallin.
$$ \ aloita {tasaus} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alfa, \ beta) \ end {align} \ tag {5} $$
missä jokaisella näytteellä on omat keskiarvonsa ja varianssit $ \ mu_j, \ sigma ^ 2_j $, jotka itse ovat peräisin tavallisista jakaumista. Tällöin käytät hierarkkista mallia, joka ottaa huomioon sekä alemman että ylemmän tason vaihtelut. Jos haluat lukea lisää tällaisista malleista, tutustu Gelmanin ym. Bayesin tietojen analyysi -kirjaan. ja heidän kahdeksan koulun esimerkki . Tämä on kuitenkin paljon monimutkaisempi malli kuin yksinkertainen yhdistetty varianssiarvioija.
Kommentit
- Olen päivittänyt kysymykseni erilaisella esimerkillä. Tässä tapauksessa vastaus ” kirjallisuudesta ’ s kaava ” on edelleen väärä. Ymmärrän, että olemme yleensä tekemisissä ” normaalitietojen kanssa ”, joissa ei ole mitään äärimmäisiä tapauksia, kuten yllä oleva esimerkkini. Matemaatikoina ei kuitenkaan pidä ’ t välittää siitä, mikä kaava on oikea, sen sijaan, mitä kaavaa käytetään ” jokapäiväisessä / yleisessä ongelmassa ”? Jos jokin kaava on pohjimmiltaan väärä, se on hylättävä, varsinkin jos on jokin toinen kaava, joka pätee kaikissa tapauksissa, patologinen tai ei.
- Btw, jonka sanoit olevan monimutkaisempia tapoja varianssin arvioimiseksi. Voisitko näyttää minulle näitä tapoja? Kiitos
- Tim, yhdistetty varianssi ei ole ” yhdistetyn näytteen iv
. Tilastoissa ” yhdistetty ” tarkoittaa painotettua keskiarvoa (kun puhumme keskimääräisistä suuruuksista, kuten variansseista, painoista olla n ’ s) tai vain summattu (kun puhumme summista, kuten hajonta, neliösumma) . Harkitse uudelleen terminologiasi (sanavalinta) vastauksessa.
Vastaus
Ongelma on, jos sinä vain ketjutat näytteet ja arvioit varianssin, oletat, että niiden sama jakauma on siis sama keskiarvo. Mutta olemme yleensä kiinnostuneita useista näytteistä, joilla on erilainen keskiarvo. Onko tällä järkevää?
Vastaus
Yhdistetyn varianssin käyttötapaus on, kun sinulla on kaksi näytettä jakeluista, jotka:
- voi olla erilainen keino, mutta
- jolla oletetaan olevan sama todellinen varianssi.
Esimerkki tästä on tilanne, jossa mitataan Alicen nenän pituus $ n $ kertaa yhdelle näytteelle ja mitataan Bobin nenän pituus $ n $ kertaa toiselle. Nämä tuottavat todennäköisesti joukon erilaisia mittauksia millimetrien mittakaavassa mittausvirheen takia. Mutta oletat, että mittausvirheen varianssi on sama riippumatta siitä, mitä nenää mitat.
Tässä tapauksessa yhdistetyn varianssin ottaminen antaisi sinulle paremman arvion mittausvirheen varianssista kuin varianssin ottaminen vain yhdestä näytteestä.
kommentit
- Kiitos vastauksestasi, mutta en silti ymmärrä yhtä asiaa ’ . Ensimmäiset tiedot antavat sinulle varianssin Alicen ’ nenän pituuden suhteen ja toiset tiedot antavat varianssin Bobin ’ nenän pituus. Jos lasket näistä tiedoista yhdistetyn varianssin, mitä se tarkoittaa? Koska ensimmäinen varianssi mittaa vaihtelua Alice ’ s: n suhteen ja toinen Bob ’ s: n suhteen, niin mitä muuta mitä tietoja voimme saada laskemalla niiden yhdistetyn varianssin? Ne ovat täysin erilaisia lukuja.
Vastaus
Yhdistetyn varianssin avulla emme yritä arvioida isompi näyte käyttämällä pienempiä näytteitä. Siksi kaksi antamaasi esimerkkiä eivät tarkalleen viittaa kysymykseen.
Yhdistetty varianssi vaaditaan, jotta saadaan parempi arvio populaation varianssista kahdesta näytteestä, jotka on otettu satunnaisesti tältä populaatiolta ja jotka ovat tulleet esiin. erilaisilla varianssiarvioilla.
Esimerkki: yrität mitata varianssia miesten tupakointitottumuksista Lontoossa. Otat näytteitä kaksi kertaa, 300 miestä Lontoosta. Saat kaksi vaihtelua (luultavasti hieman erilainen) Nyt), koska teit oikeudenmukaisen satunnaisotannan (parhaasi mukaan! Koska todellinen satunnaisotanta on melkein mahdotonta), sinulla on kaikki oikeudet sanoa, että molemmat varianssit ovat todellisia väestövarianssi-estimaatteja (Lontoon miehet tässä
Mutta miten se on mahdollista? eli kaksi erilaista piste-estimaattia !! Etsimme siis eteenpäin yhteisen piste-estimaatin, joka on yhdistetty varianssi. Se ei ole muuta kuin kahden piste-estimaatin painotettu keskiarvo, missä painot ovat kuhunkin näytteeseen liittyvä vapauden aste.
Toivottavasti tämä selventää.
Vastaa
Vaikka olenkin myöhässä keskusteluun, voin lisätä jotain hyödyllistä:
Minusta tuntuu että toimenpideohjelma haluaa tietää, miksi (mitä varten) tarvitsemme yhdistetyn variaabeliarvion $ \ hat \ sigma_ {pooled} $ kahden otoksen painotettuna keskiarvona (be varianssi tai keskihajonta).
Sikäli kuin olen tietoinen käytännön tarpeesta eräänlainen dispersiomittaus syntyy halusta verrata (ala) ryhmien keskiarvoja: joten jos haluan verrata keskimääräistä nenän pituutta 1) ihmisille, joille ei ole tehty geeniterapiaa, 2) ihmisille, joille on tehty geeniterapia A ja 3) ihmiset, joille tehtiin geenihoito B. bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ muuttujaennusteella ). Yhdistetyn varianssin neliöjuuren koosta riippuen (yhdistetty keskihajonta) voimme paremmin arvioida näiden ryhmien 2 mm: n eron suuruuden (esim. $ d = 2mm / 0,5mm = 4 $ vs. $ d = 2mm / 4mm = 0.5 $ – > Onko geeniterapia A jotain nenän pituuteen? Ja jos on, kuinka paljon? Milloin $ d = 4 $ tai $ 2 \ pm 0,5mm $ näyttää olevan ” vakaa ” tai ” johdonmukainen ” tai ” iso ” (verrattuna vaihtelevuuteen) nenän keskimääräisten pituuksien ero, kun $ d = 0.5 $ tai $ 2 \ pm 4mm $ se ei vaikuta kovin paljon suhteellisesti. tapauksessa kaikki arvot molemmissa ryhmissä ovat samat, joten vaihtelua ei ole ryhmät, $ d $ ei määritellä, mutta tulkinta olisi $ 2 \ pm 0mm = 2mm $ täsmälleen).
Tämä on ajatus vaikutuksen koosta (jonka teoreettisesti esittivät Neyman ja Pearson, sikäli kuin tiedän, mutta sellaista tai toista käytettiin hyvinkin aiemmin, ks. Stigler, 1986 Joten teen tekemäni vertaamalla ryhmien keskimääräistä eroa samojen ryhmien keskimääräisiin eroihin, ts. varianssien painotettu keskiarvo (keskihajonta). Tämä on järkevämpää kuin verrata keskiarvoa (ala) ryhmien keskimääräiseen eroon ” koko ” ryhmässä, koska , kuten sinä (Hanciong) olet osoittanut, koko ryhmän varianssi (ja keskihajonta) sisältää myös ryhmän keskiarvojen erot.
teoreettinen mitan tarve syntyy kyvystä käyttää $ t $ -jakauma havaitun keskimääräisen eron tai äärimmäisemmän eron todennäköisyyden löytämiseksi, kun otetaan huomioon jonkin verran odotettua arvoa keskimääräiselle erolle (p-arvo esim. Null-hypoteesi-merkitsevyystesti , NHST tai Neyman-Pearsonin hypoteesitesti tai Fisherin hypoteesitesti, luottamusvälit jne.): $ p (e \ ge e_ {havaittu} | \ mu_e = 0) $ .
Sikäli kuin tiedän $ t $ -jakauman (ja erityisesti $ F $ -jakauma tapauksissa, joissa on enemmän kuin 2 vertailukykyä) antaa oikeat arviot todennäköisyydelle vain, kun molemmat (tai kaikki) otokset on otettu populaatioista, joilla on samat varianssit (varianssin homogeenisuus, kuten huomautettiin) jo muissa vastauksissa; tämä tulisi kuvata (tarkemmin) kohdassa m tilasto-oppikirjat). Luulen, että kaikki jakaumat perustuvat normaalijakaumaan ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) oletetaan, että varianssi on yli 0 ja pienempi kuin $ \ infty $ , joten se olisi mahdotonta löytää p-arvoa tapaukselle, jonka vaihteluväli on 0 (tässä tapauksessa ei tietenkään oteta huomioon, että olet ottanut näytteesi normaalijakaumasta).
(Tämä näyttää myös intuitiivisesti järkevältä: jos haluan Jos vertaat kahta tai useampaa keskiarvoa, näiden keinojen tarkkuuden tulisi olla sama tai ainakin vertailukelpoinen:
jos suoritan geeniterapiani A ihmisillä, joiden nenänpituudet ovat melko samanlaiset, sano $ \ bar x \ pm 0.5mm $ , mutta kontrolliryhmässäni on joukko ihmisiä, joiden nenän pituudet vaihtelevat suuresti, sano $ \ bar x \ pm 4mm $ ei näytä olevan oikeudenmukaista verrata näitä keinoja suoraan, koska niillä ei ole sama ” keskimääräinen merkitys ”; itse asiassa verrokkiryhmäni huomattavasti korkeampi varianssi / keskihajonta voisi osoittaa muita alaryhmiä, ehkä nenän pituuksien eroja johtuen eräiden geenien eroista.)