Noob vagyok a statisztikában, ezért tudnátok segíteni itt.
A kérdésem a következő: Mit jelent egyesített variancia valójában jelentése?
Amikor az interneten keresem a felhalmozott variancia képletét, sok irodalmat találok a következő képlet segítségével (például itt: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
\ begin {equation} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {egyenlet}
De mit csinál valójában számolni? Mert amikor ezt a képletet használom az összesített varianciám kiszámításához, ez rossz választ ad nekem.
Például vegye figyelembe ezeket a “szülőmintákat”:
\ begin {equation} \ label { eq: szülőminta} 2,2,2,2,2,8,8,8,8,8 \ end {egyenlet}
A szülőminta szórása $ S ^ 2_p = 10 $, és az átlaga $ \ bar {x} _p = 5 $.
Most tegyük fel, hogy ezt a szülőmintát két részmintára osztottam:
- Az első alminta 2,2,2,2,2, átlag $ \ bar {x} _1 = 2 $ és variancia $ S ^ 2_1 = 0 $.
- A második alminta 8,8,8,8,8, átlagos $ \ bar {x} _2 = 8 $ és variancia $ S ^ 2_2 = 0 $.
Most egyértelműen, ha a fenti képlet segítségével kiszámítjuk e két alminta összesített / szülő varianciáját, akkor nulla lesz, mert $ S_1 = 0 $ és $ S_2 = 0 $. Tehát mit számol valójában ez a képlet?
Másrészt, hosszas levezetés után, azt találtam, hogy a képlet, amely a helyes pool / szülő varianciát produkálja, a következő:
\ begin {egyenlet} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {egyenlet}
A fenti képletben $ d_1 = \ bar {x_1} – \ bar {x} _p $ és $ d_2 = \ bar {x_2 } – \ bar {x} _p $.
Hasonló képletet találtam az enyémmel, például itt: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html és a Wikipédiában is. Bár el kell ismernem, hogy nem pontosan ugyanúgy néznek ki, mint az enyém.
Tehát még egyszer, mit is jelent valójában az egyesített variancia? Nem kell, hogy ez a két alminta szülőminta varianciáját jelentse ? Vagy itt teljesen tévedek?
Előre is köszönöm.
1. SZERKESZTÉS: Valaki azt mondja, hogy a fenti két almintám kóros, mivel nulla a szórása. Nos, mondhatnék egy másik példát. Tekintsük ezt a szülőmintát:
\ begin {equation} \ label {eq: parentample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}
Ennek a szülőmintának a szórása $ S ^ 2_p = 564.7 $, az átlaga pedig $ \ bar {x} _p = 25.5 $.
Most tegyük fel, hogy ezt a szülőmintát két részmintára osztottam:
- Az első alminta 1,2,3,4,5, átlag $ \ bar {x} _1 = 3 $ és variancia $ S ^ 2_1 = 2,5 $.
- A második alminta 46,47,48,49,50, átlagos $ \ bar {x} _2 = 48 $ és variancia $ S ^ 2_2 = 2,5 $.
Most, ha az “irodalom” képletét használja az egyesített variancia kiszámításához, akkor 2,5-t kap, ami teljesen téves, mert a szülő / összesített varianciának 564,7-nek kell lennie. Ehelyett, ha a “képletemet” használja, akkor helyes választ kap.
Kérjük, értse meg, itt szélsőséges példákat használok annak bemutatására, hogy a képlet valóban rossz. Ha olyan “normál adatokat” használok, amelyeknek nincs sok variációja (szélsőséges esetek), akkor e két képlet eredménye nagyon hasonló lesz, és az emberek a kerekítési hiba miatt elutasíthatják a különbséget, nem azért, mert maga a képlet rossz.
Megjegyzések
- Néhány kapcsolódó link: stats.stackexchange.com/q / 214834/3277 , stats.stackexchange.com/q/12330/3277 , stats.stackexchange.com/q / 43159/3277 .
- Statisztikai hallgatóként azt gondolom, hogy az első fomulát használjuk a két minta átlagának különbségének varianciájának megbecsülésére, hogy kialakulhasson Z- statisztika ~ N (0,1) a Null hipotézis alatt. A második képlet azonban két minta összefűzésének szórása. Ha meg akarjuk különböztetni őket, akkor nemcsak a szó szerinti szempontból, hanem a funkcionalitásuk ból is.
Válasz
Egyszerűen fogalmazva: az egyesített variancia az egyes minták szórásának (elfogulatlan) becslése, azzal a feltételezéssel / korlátozással, hogy ezek a szórások egyenlőek.
Ezt a Wikipedia bejegyzése az egyesített varianciákra részletesen elmagyarázza, motiválja és elemzi.
not megbecsüli egy új” metaminta “varianciáját, amelyet a két egyedi minta összefűzésével hoztak létre, ahogy feltételezted. Amint már felfedezte, ennek becslése teljesen más képletet igényel.
megjegyzések
- A ” egyenlőség feltételezése ” (vagyis ugyanaz a populáció realizálta ezeket a mintákat) nem szükséges általában annak meghatározásához, hogy mi ez – ” pooled “. Az összevont egyszerűen átlagolt, összesített jelent (lásd Timhez írt megjegyzésemet).
- @ttnphns Úgy gondolom, hogy az egyenlőség feltételezése szükséges ahhoz, hogy az összevont varianciának fogalmi jelentést adjon (amelyet az OP kért), amely túlmutat csak verbálisan. leírva azt a matematikai műveletet, amelyet a minta varianciáin végez. Ha a populációs varianciákat nem feltételezzük egyenlőnek, akkor ‘ nem világos, hogy mi tekinthetnénk az összevont varianciát becslésnek. Természetesen csak úgy gondolhatnánk rá, hogy a két variancia összevonása lenne, és ezt hagynánk, de ez ‘ alig alátámasztó, ha nincs motiváció a kombinációra. elsősorban a varianciák.
- Jake, I ‘ nem vagyok ezzel ellentétben, tekintettel az OP konkrét kérdésére, de erről beszélni akartam a ” szó meghatározása ” szó, hogy ‘ s miért mondtam, ” általában “.
- @JakeWestfall A válaszod az eddigi legjobb válasz. Köszönöm. Bár egy dologban még mindig nem vagyok egyértelmű. A Wikipedia szerint az egyesített variancia számos különböző populáció varianciájának becslésére szolgál, amikor az egyes populációk átlaga különböző lehet, de feltételezhetjük, hogy a variancia az egyes populációk ugyanazok .
- @JakeWestfall: Tehát ha két különböző populációból származó összesített varianciát számolunk különböző eszközökkel, akkor mit is számít valójában? Mivel az első variancia a variációt az első átlaghoz viszonyítja, a második variancia pedig a második átlaghoz viszonyítva. Nem tudom, hogy ‘ milyen további információk nyerhetők annak kiszámításával.
Válasz
Az egyesített varianciát arra használjuk, hogy a különböző mintákból származó varianciákat összevegyítsük súlyozott átlagukkal, az “összes” variancia megszerzéséhez. A példád problémája az, hogy kóros esetről van szó, mivel az egyes részminták varianciája nulla. Egy ilyen kóros esetnek nagyon kevés közös vonása van azokkal az adatokkal, amelyekkel általában találkozunk, mivel mindig van némi változékonyság, és ha nincs változékonyság, akkor nem törődünk az ilyen változókkal, mivel nem tartalmaznak információt. Meg kell jegyeznie, hogy ez egy nagyon egyszerű módszer, és a hierarchikus adatstruktúrák varianciájának becslésére bonyolultabb módszerek vannak, amelyek nem hajlamosak ilyen problémákra.
Ami a szerkesztésben szereplő példáját illeti, azt mutatja, hogy fontos egyértelműen megfogalmazni a feltételezéseit az elemzés megkezdése előtt. Mondjuk, hogy $ n $ adatpontod van $ k $ csoportokban, ezt $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, ahol a $ i $ -th index a $ x_ {i, j} $ -ban az eseteket, a $ j $ -th index pedig a csoport-indexeket jelenti. Számos forgatókönyv lehetséges, feltételezhetjük, hogy az összes pont ugyanabból az eloszlásból származik (az egyszerűség kedvéért tételezzük fel a normál eloszlást),
$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$
feltételezhetjük, hogy az egyes részmintáknak megvan a maga átlaguk
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$
vagy saját varianciája
$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$
vagy mindegyiknek megvannak a maga különálló paraméterei
$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$
Feltételezéseitől függően egy adott módszer, vagy lehet, hogy nem megfelelő az adatok elemzéséhez.
Az első esetben nem érdekelne a csoporton belüli varianciák megbecsülése, mivel azt feltételeznéd, hogy mindegyik egyforma. Mindazonáltal, ha összesítené a globális varianciát a csoportvariánsokból, ugyanazt az eredményt kapná, mint az összesített variancia használatával, mivel a variancia definíciója
$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$
és az összevont becslésben először meg kell szorozni $ n-1 $ -val, majd összeadni és végül elosztani $ n_1 + n_2 – 1 $.
A második esetben az eszközök eltérnek, de közös eltérésed van. Ez a példa áll legközelebb a szerkesztésben szereplő példájához. Ebben a forgatókönyvben az egyesített variancia helyesen megbecsüli a globális varianciát, míg ha az egész adathalmazra becsüljük a varianciát, akkor helytelen eredményeket kap, mivel nem számolt azzal, hogy a csoportoknak különböző az eszköze .
A harmadik esetben nincs értelme becsülni a „globális” varianciát, mivel feltételezzük, hogy mindegyik csoportnak megvan a maga varianciája.Még mindig érdekelheti a teljes populációra vonatkozó becslés megszerzését, de ebben az esetben mind a) kiszámítja az egyes csoportok szerinti varianciákat, mind pedig (b) kiszámítja a globális varianciát a teljes adatkészletből, félrevezető eredményekkel járhat . Ha ilyen típusú adatokkal foglalkozik, akkor érdemes egy bonyolultabb modellt használni, amely az adatok hierarchikus jellegét veszi figyelembe.
A negyedik eset a legszélsőségesebb és az előzőhöz hasonló. Ebben a forgatókönyvben, ha meg akarja becsülni a globális átlagot és szórást, akkor más modellre és más feltételezésekre van szüksége. Ebben az esetben feltételezheti, hogy az adatai hierarchikus felépítésűek, és a csoporton belüli átlagok és eltérések mellett van egy magasabb szintű közös variancia is, például a következő modellt feltételezve.
$$ \ kezdődik {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alfa, \ beta) \ end {align} \ tag {5} $$
ahol minden mintának megvan a maga eszköze és eltérése $ \ mu_j, \ sigma ^ 2_j $, amelyek maguk is a közös eloszlásokból származnak. Ebben az esetben hierarchikus modellt használna, amely figyelembe veszi az alsó és a felső szintű változékonyságot egyaránt. Ha többet szeretne megtudni az ilyen típusú modellekről, ellenőrizze Gelman és munkatársai Bayesi adatelemzés könyvét. és a nyolc iskola példájuk . Ez azonban sokkal bonyolultabb modell, mint az egyszerű összevont varianciabecslő.
Megjegyzések
- Kérdésemet különböző példákkal frissítettem. Ebben az esetben a ” irodalom ‘ s képlete ” továbbra is téves. Megértem, hogy általában ” normál adatokkal ” van dolgunk, ahol nincs olyan extrém eset, mint a fenti példámban. Matematikusként azonban nem szabad ‘ t érdekelnie, hogy melyik képlet helyes, ahelyett, hogy melyik képlet érvényes a ” mindennapi / gyakori problémára “? Ha valamilyen képlet alapvetően téves, akkor azt el kell vetni, különösen, ha van egy másik képlet, amely minden esetben érvényes, akár kóros, akár nem.
- Btw azt mondta, vannak bonyolultabb módszerek a variancia becslésének. Meg tudnád mutatni ezeket az utakat? Köszönöm
- Tim, a összesített variancia nem a ” kombinált minta iv teljes varianciája id = “bc2af58303”>
. A statisztikákban a ” összesített ” jelentése súlyozott átlag (amikor olyan átlagolt mennyiségekről beszélünk, mint a szórások, súlyok lévén n ‘ s), vagy éppen összegezve (amikor olyan összegekről beszélünk, mint szórások, négyzetösszegek) . Kérjük, gondolja át a terminológiáját (a szavak választása) a válaszban.
Válasz
A probléma az, ha csak összefűzi a mintákat, és megbecsüli annak varianciáját, ha feltételezi, hogy ugyanazon eloszlásból származnak, ezért ugyanaz az átlaga. De általában több különböző átlaggal rendelkező minta érdekel minket. Van ennek értelme?
Válasz
Az egyesített variancia felhasználási esete az, amikor két minta van az eloszlásokból, amelyek:
- eltérő eszközökkel rendelkezhet, de
- amellyel egyenlő igaz eltérést vár.
Erre példa egy olyan helyzet, amikor Alice orrának $ n $ -szeresét méri egy minta esetében, Bob-nak pedig $ m $ -szorosát a másodiknál. Ezek valószínűleg a mérési hibák miatt rengeteg különböző mérést eredményeznek milliméter skálán. De arra számítasz, hogy a mérési hiba szórása ugyanaz lesz, függetlenül attól, hogy melyik orrot méred.
Ebben az esetben az összevont variancia felvétele jobb becslést ad a mérési hiba szórására, mint a variancia felvétele csak egy minta.
Megjegyzések
- Köszönöm a válaszod, de még mindig nem értek ‘ egy dologhoz . Az első adat az Alice ‘ orrhosszának eltérését adja meg, a második pedig a Bob ‘ s orrhossza. Ha ezekből az adatokból összevont varianciát számol, mit jelent ez valójában? Mivel az első variancia az Alice ‘ s, a második a Bob ‘ s vonatkozásában méri a variációt, akkor milyen további információt nyerhetünk összevont szórásuk kiszámításával? Teljesen különböző számok.
Válasz
Összevont variancián keresztül nem próbáljuk megbecsülni a nagyobb minta, kisebb minták felhasználásával. Ezért az Ön által megadott két példa nem pontosan a kérdésre vonatkozik.
Összevont variancia szükséges a populációs variancia jobb becsléséhez két, az adott populációból véletlenszerűen vett minta alapján. különböző varianciabecslésekkel.
Például megpróbálja felmérni a londoni férfiak dohányzási szokásainak szórását. Kétszer is mintát vesz, 300 londoni férfi. Végül két eltérést kap (valószínűleg kissé eltér !). Most, hogy korrekt véletlenszerű mintavételt hajtott végre (képességeinek legjobban! Mivel az igazi véletlenszerű mintavétel szinte lehetetlen), akkor minden joga meg van mondani, hogy mindkét variancia a populáció szórásának valódi pontbecslése (ebben a londoni férfi eset).
De hogy lehetséges ez? azaz két különböző pontbecslés !! Így megyünk előre, és találunk egy közös pontbecslést, amely az összesített variancia. Ez nem más, mint kétpontos becslés súlyozott átlaga, ahol a súlyok az egyes mintákhoz tartozó szabadság mértéke.
Remélem, ez tisztázza.
Válasz
Bár nagyon elkéstem a beszélgetésből, talán tudok valami hasznosat hozzáadni:
Nekem úgy tűnik hogy az OP tudni akarja, miért (miért) lenne szükségünk összevont variabilitási becslésre $ \ hat \ sigma_ {pooled} $ , mint két minta súlyozott átlaga (be variancia vagy szórás).
Tudomásom szerint a fő gyakorlati igény erre a diszperzió mértéke abból adódik, hogy össze akarjuk hasonlítani a (al) csoportok átlagát: tehát ha összehasonlítani szeretném az átlagos orrhosszt 1) olyan embereknél, akik nem estek át génterápián, 2) azokon, akik átestek génterápián A olyan emberek, akik B. génterápián estek át.
Az átlagos hosszkülönbségek összegének (mm) összehasonlítása érdekében elosztom az átlag különbséget, mondjuk, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ a variabilitás becslésével (itt standard devi ). Az egyesített variancia négyzetgyökének nagyságától (összevont szórás) jobban meg tudjuk ítélni a csoportok közötti 2 mm-es különbség nagyságát (pl. $ d = 2mm / 0,5mm = 4 $ vs. $ d = 2mm / 4mm = 0,5 $ – > A génterápia nem valami az orr hosszáig? És ha igen, mennyit? Amikor $ d = 4 $ vagy $ 2 \ pm 0,5mm $ úgy tűnik, hogy ” stabil ” vagy ” következetes ” vagy ” nagy ” (a változékonysághoz képest) különbség az orr átlagos hossza között, amikor $ d = 0.5 $ vagy $ 2 \ pm 4mm $ ez viszonylag kevéssé tűnik annyira. esetben mindkét csoporton belül minden érték megegyezik, ezért nincs változékonyság a csoportokban a $ d $ nem lenne meghatározva, de az értelmezés $ 2 \ pm 0mm = 2mm $ pontosan).
Ez az effekt méret ötlete (amelyet elméletileg először Neyman és Pearson vezetett be tudomásom szerint, de valamilyen formában jóval korábban használták, lásd Stigler, 1986 Tehát azt csinálom, hogy összehasonlítom a csoportok közötti átlagos különbséget az ugyanazon csoportokon belüli átlagkülönbségekkel, azaz a szórások súlyozott átlagával (szórások). Ennek több értelme van, mint összehasonlítani a (rész) csoportok közötti átlagkülönbséget a ” egész ” csoporton belüli átlagkülönbséggel, , amint Ön (Hanciong) megmutatta, az egész csoport varianciája (és szórása) tartalmazza a csoport különbségeit is.
A elméleti mérőszükséglet abból adódik, hogy használhatja a $ t $ -eloszlás a megfigyelt vagy egy szélsőségesebb átlagkülönbség valószínűségének megtalálásához, adott esetben az átlagos különbség várható értéke (p-érték pl. Null-hipotézis-szignifikancia-teszt , NHST vagy Neyman-Pearson hipotézis teszt vagy Fisher hipotézis teszt, konfidencia intervallumok stb.): $ p (e \ ge e_ {megfigyelt} | \ mu_e = 0) $ .
Ha jól tudom a $ t $ -distribution (és különösen a $ F $ -eloszlás 2-nél több összehasonlítási eszközzel rendelkező esetekben csak akkor ad helyes becslést a valószínűségre, ha mindkét (vagy az összes) mintát populációkból azonos varianciákkal (variancia homogenitása, mint rámutattunk) a többi válaszban már; ezt (m) részletesen le kell írni ost statisztikai tankönyvek). Azt hiszem, minden eloszlás a normál eloszláson alapul ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) 0-nál nagyobb és $ \ infty $ varianciát feltételez, tehát lehetetlen megtalálni a 0 értékű változókon belüli eset p értékét (ebben az esetben nyilván nem feltételeznéd, hogy normális eloszlásból vetted volna a mintádat).
(Ez intuitív módon ésszerűnek is tűnik: ha akarom két vagy több eszköz összehasonlítása, akkor az eszközök pontosságának azonosnak vagy legalább összehasonlíthatónak kell lennie:
ha az A génterápiámat olyan embereken futtatom, akiknek orrhossza meglehetősen hasonló, mondjuk $ \ bar x \ pm 0.5mm $ , de a kontrollcsoportomban van egy nagy orrhosszúsággal változó embercsoport, mondjuk $ \ bar x \ pm 4mm $ nem tűnik korrektnek összehasonlítani ezeket az eszközöket, mert ezek az eszközök nem rendelkeznek ugyanaz az ” jelentése-jelentése “; valójában a kontrollcsoportomban a sokkal nagyobb variancia / szórás további alcsoportokat jelezhet, esetleg az orr hosszának különbségét egyes gének eltérései miatt.)