Co vlastně znamená sdružená odchylka “ ”?

Jsem statistikem noob, mohli byste mi prosím pomoci, prosím?

Moje otázka zní: Co dělá sdružená variance ve skutečnosti znamená?

Když hledám na internetu vzorec pro sdruženou odchylku, najdu spoustu literatury pomocí následujícího vzorce (například zde: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

\ begin {equation} \ label {eq: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {rovnice}

Ale co to dělá vlastně vypočítat? Protože když použiji tento vzorec k výpočtu mé společné variance, dá mi špatnou odpověď.

Vezměme si například tyto „nadřazené vzorky“:

\ begin {equation} \ label { eq: parentample} 2,2,2,2,2,8,8,8,8,8,8 \ end {rovnice}

Rozptyl tohoto nadřazeného vzorku je $ S ^ 2_p = 10 $, a jeho průměr je $ \ bar {x} _p = 5 $.

Nyní předpokládejme, že jsem rozdělil tento nadřazený vzorek na dva dílčí vzorky:

  1. První dílčí vzorek je 2,2,2,2,2 s průměrem $ \ bar {x} _1 = 2 $ a rozptyl $ S ^ 2_1 = 0 $.
  2. Druhý dílčí vzorek je 8,8,8,8,8 se střední hodnotou $ \ bar {x} _2 = 8 $ a rozptyl $ S ^ 2_2 = 0 $.

Nyní je zřejmé, že použití výše uvedeného vzorce k výpočtu rozptylu sdruženého s rodiči těchto dvou dílčích vzorků vyprodukuje nulu, protože $ S_1 = 0 $ a $ S_2 = 0 $. Co tedy tento vzorec ve skutečnosti vypočítá?

Na druhou stranu, po nějaké zdlouhavé derivaci jsem našel vzorec, který vytváří správnou sdruženou / nadřazenou variantu:

\ begin {equation} \ label {eq: smartpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {equation}

Ve výše uvedeném vzorci $ d_1 = \ bar {x_1} – \ bar {x} _p $ a $ d_2 = \ bar {x_2 } – \ bar {x} _p $.

S mým jsem našel podobný vzorec, například zde: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html a také na Wikipedii. I když musím přiznat, že nevypadají úplně stejně jako moje.

Takže znovu, co vlastně znamená sdružená odchylka? Nemělo by to znamenat odchylku nadřazeného vzorku ze dvou dílčích vzorků ? Nebo se tady úplně mýlím?

Předem děkuji.


EDIT 1: Někdo říká, že moje dva výše uvedené vzorky jsou patologické, protože mají nulovou variaci. Mohl bych vám dát jiný příklad. Zvažte tento nadřazený vzorek:

\ begin {equation} \ label {eq: parentample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}

Rozptyl tohoto nadřazeného vzorku je $ S ^ 2_p = 564,7 $ a jeho průměr je $ \ bar {x} _p = 25,5 $.

Nyní předpokládejme, že jsem rozdělil tento nadřazený vzorek na dva dílčí vzorky:

  1. První dílčí vzorek je 1,2,3,4,5 se střední hodnotou $ \ bar {x} _1 = 3 $ a rozptyl $ S ^ 2_1 = 2,5 $.
  2. Druhý dílčí vzorek je 46,47,48,49,50 se střední hodnotou $ \ bar {x} _2 = 48 $ a variance $ S ^ 2_2 = 2,5 $.

Nyní, když použijete „literární vzorec“ k výpočtu sdružené variance, dostanete 2,5, což je zcela špatné, protože rodičovská / sdružená odchylka by měla být 564,7. Místo toho, pokud použijete „můj vzorec“, dostanete správnou odpověď.

Pochopte, prosím, používám extrémní příklady, abych lidem ukázal, že vzorec je opravdu špatný. Pokud použiji „normální data“, která nemají mnoho variací (extrémní případy), budou výsledky těchto dvou vzorců velmi podobné a lidé by mohli tento rozdíl zavrhnout kvůli zaokrouhlovací chybě, ne proto, že samotný vzorec je špatně.

Komentáře

Odpověď

Zjednodušeně řečeno, sdružená odchylka je (nestranný) odhad odchylky v každém vzorku za předpokladu / omezení, že tyto odchylky jsou stejné.

To je vysvětleno, motivováno a podrobně analyzováno v záznamu na Wikipedii pro sdruženou odchylku .

Je to ne odhadnout rozptyl nového“ metamamplu „vytvořeného zřetězením dvou jednotlivých vzorků, jak jste předpokládali. Jak jste již zjistili, odhadování vyžaduje úplně jiný vzorec.

Komentáře

  • Předpoklad “ rovnosti “ (tj. stejná populace si tyto vzorky uvědomila) není obecně nutné definovat, o co jde – “ sdruženo „. Pooled jednoduše znamená zprůměrovaný, souhrnný (viz můj komentář Timovi).
  • @ttnphns Myslím, že předpoklad rovnosti je nezbytný pro to, aby dal sdruženému rozptylu koncepční význam (který OP požadoval), který jde dále než jen slovně popisující matematickou operaci, kterou provádí na odchylkách vzorku. Pokud se odchylky populace nepředpokládají stejné, pak ‚ není jasné, co bychom mohli považovat za souhrnnou odchylku za odhad. Samozřejmě bychom o tom mohli přemýšlet jako o sloučení dvou variant a nechat to tak, ale to ‚ je sotva poučné, protože neexistuje žádná motivace chtít kombinovat rozdíly na prvním místě.
  • Jake, s tím ‚ nesouhlasím, vzhledem ke konkrétní otázce OP, ale chtěl jsem mluvit o definice slova “ sdružená „, která ‚ proč jsem řekl, “ obecně „.
  • @JakeWestfall Vaše odpověď je zatím nejlepší odpovědí. Děkuji. I když stále nemám jasno v jedné věci. Podle Wikipedie je sdružená odchylka metodou pro odhad rozptylu několika různých populací, když průměr každé populace může být odlišný , ale lze předpokládat, že varianta každé populace je stejná .
  • @JakeWestfall: Takže pokud počítáme společnou odchylku ze dvou různých populací různými způsoby, co to vlastně vypočítá? Protože první rozptyl měří odchylku vzhledem k prvnímu průměru a druhá rozptyl je vzhledem k druhému průměru. Nevím ‚ jaké další informace lze získat jejich výpočtem.

Odpovědět

Sloučená variance se používá k kombinování odchylek z různých vzorků pomocí jejich váženého průměru, aby se získala „celková“ varianta. Problém vašeho příkladu spočívá v tom, že se jedná o patologický případ, protože každý z dílčích vzorků má rozptyl rovný nule. Takový patologický případ má velmi málo společného s údaji, s nimiž se obvykle setkáváme, protože vždy existuje určitá variabilita a pokud není variabilita, nestaráme se o takové proměnné, protože neobsahují žádné informace. Musíte si všimnout, že se jedná o velmi jednoduchá metoda a existují složitější způsoby odhadu odchylek v hierarchických datových strukturách, které k takovým problémům nejsou náchylné.

Pokud jde o váš příklad v úpravě, ukazuje, že je důležité jasně uvést vaše předpoklady před zahájením analýzy. Řekněme, že máte $ n $ datové body ve skupinách $ k $, označili bychom to jako $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, kde $ i $ -th index v $ x_ {i, j} $ znamená případy a $ j $ -th index znamená skupinové indexy. Existuje několik možných scénářů, můžete předpokládat, že všechny body pocházejí ze stejné distribuce (pro jednoduchost předpokládejme normální distribuci),

$$ x_ {i, j} \ sim \ mathcal { N} (\ mu, \ sigma ^ 2) \ tag {1} $$

můžete předpokládat, že každý z dílčích vzorků má svůj vlastní průměr

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

nebo jeho vlastní varianta

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

nebo každý z nich má své vlastní, odlišné parametry

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

Podle vašich předpokladů může konkrétní metoda, nebo nemusí být adekvátní pro analýzu dat.

V prvním případě by vás nezajímalo odhadování odchylek v rámci skupiny, protože byste předpokládali, že jsou všechny stejné. Pokud byste však agregovali globální rozptyl ze skupinových odchylek, dosáhli byste stejného výsledku jako při použití rozptylu sdruženého, protože definice rozptylu je

$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$

a ve sdruženém odhadu to nejprve vynásobíte $ n-1 $, poté sečtete a nakonec vydělíte $ n_1 + n_2 – 1 $.

Ve druhém případě znamená, že se liší, ale máte společnou odchylku. Tento příklad je nejblíže vašemu příkladu v úpravě. V tomto scénáři by sdružený rozptyl správně odhadl globální rozptyl, zatímco pokud by odhadovaný rozptyl na celé datové sadě, získal byste nesprávné výsledky, protože jste nezohledňovali skutečnost, že skupiny mají různé prostředky .

Ve třetím případě nemá smysl odhadovat „globální“ rozptyl, protože předpokládáte, že každá ze skupin má vlastní rozptyl.Možná vás bude i nadále zajímat získání odhadu pro celou populaci, ale v takovém případě jak (a) výpočet jednotlivých odchylek na skupinu, tak (b) výpočet globální odchylky z celé množiny dat, vám může poskytnout zavádějící výsledky . Pokud pracujete s tímto druhem dat, měli byste myslet na použití složitějšího modelu, který zohledňuje hierarchickou povahu dat.

Čtvrtý případ je nejextrémnější a velmi podobný předchozímu. V tomto scénáři, pokud byste chtěli odhadnout globální průměr a rozptyl, budete potřebovat jiný model a jinou sadu předpokladů. V takovém případě byste předpokládali, že vaše data mají hierarchickou strukturu a kromě prostředků a odchylek v rámci skupiny existuje společná odchylka na vyšší úrovni, například za předpokladu následujícího modelu

$$ \ start {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

kde každý vzorek má své vlastní prostředky a varianty $ \ mu_j, \ sigma ^ 2_j $, které samy čerpají z běžných distribucí. V takovém případě byste použili hierarchický model, který zohledňuje variabilitu na nižší i vyšší úrovni. Další informace o tomto druhu modelů naleznete v knize Bayesian Data Analysis od Gelmana a spol. a jejich příklad osmi škol . Toto je však mnohem komplikovanější model než jednoduchý odhadovaný odhad variance.

Komentáře

  • Aktualizoval jsem svou otázku jiným příkladem. V tomto případě je odpověď z “ literatury ‚ s vzorce “ stále špatná. Chápu, že se obvykle zabýváme “ normálními daty „, kde neexistuje žádný extrémní případ, jako je můj výše uvedený příklad. Jako matematikům by vám však ‚ nemělo zajímat, který vzorec je skutečně správný, místo toho vzorec platí v “ každodenním / běžném problému „? Pokud je některý vzorec zásadně nesprávný, měl by být vyřazen, zvláště pokud existuje jiný vzorec, který platí ve všech případech, patologický nebo ne.
  • Btw, řekl jste, že existují složitější způsoby odhadu rozptylu. Mohl byste mi ukázat tyto způsoby? Děkuji
  • Tim, sdružená variance není celková varianta “ kombinovaného vzorku „. Ve statistice “ sdružený “ znamená vážený průměr (když mluvíme o průměrných veličinách, jako jsou odchylky, váhy být n ‚ s) nebo jen sečteno (když mluvíme o součtech, jako jsou rozptyly, součty čtverců) . V odpovědi prosím přehodnoťte svoji terminologii (výběr slov).
  • I když mimo aktuální téma, zde je zajímavá otázka o “ společném “ varianční koncept. stats.stackexchange.com/q/208175/3277
  • Hanciong. Trvám na tom, že “ sdružené “ obecně a dokonce konkrétně “ sdružené variance “ koncept obecně nevyžaduje žádný předpoklad, jako například: skupiny pocházely z populací se stejnými odchylkami. Sdružování je jednoduše míchání (vážený průměr nebo součet). Tento statistický předpoklad přidáváme za ANOVA a podobných okolností.

Odpověď

Problém je, pokud stačí zřetězit vzorky a odhadnout jejich rozptyl, předpokládáte, že jsou ze stejné distribuce, proto mají stejný průměr. Ale obecně nás zajímá několik vzorků s různým průměrem. Dává to smysl?

Odpověď

Případ použití společné variance je, když máte dva vzorky z distribucí, které:

  • může mít různé prostředky, ale
  • u kterých očekáváte stejnou pravou odchylku.

Příkladem je situace, kdy změříte délku nosu Alice $ n $ krát pro jeden vzorek a změříte délku Bobova nosu $ m $ krát pro druhý vzorek. Je pravděpodobné, že kvůli chybě měření vyprodukují spoustu různých měření na stupnici milimetrů. Očekáváte ale, že odchylka v chybě měření bude stejná bez ohledu na to, jaký nos měříte.

V takovém případě by vám při použití sdružené odchylky došlo k lepšímu odhadu odchylky v chybě měření než při odchylce pouze jednoho vzorku.

Komentáře

  • Děkuji vám za odpověď, ale stále nerozumím jedné věci ‚ . První data vám poskytnou rozptyl vzhledem k délce nosu Alice ‚ a druhá data vám poskytnou rozptyl vzhledem k Bobovi ‚ délka nosu. Pokud z těchto dat počítáte společnou odchylku, co to vlastně znamená? Protože první varianta měří variaci s ohledem na Alice ‚ s a druhá s ohledem na Bob ‚ s, takže jaké další informace můžeme získat výpočtem jejich společné variance? Jsou to úplně jiná čísla.

Odpověď

Prostřednictvím sdružené variance se nepokoušíme odhadnout rozptyl větší vzorek, s použitím menších vzorků. Dva příklady, které jste uvedli, tedy přesně neodkazují na otázku.

Pro lepší odhad rozptylu populace je nutný sdružený rozptyl ze dvou vzorků, které byly náhodně odebrány z této populace a přijdou s různými odhady odchylek.

Příklad: pokoušíte se měřit odchylky v kuřáckých návycích mužů v Londýně. Vyzkoušíte dvakrát, 300 mužů z Londýna. Nakonec získáte dvě odchylky (pravděpodobně trochu jiné !). Nyní, protože jste provedli spravedlivý náhodný výběr (nejlépe podle svých schopností! Protože skutečný náhodný výběr je téměř nemožný), máte všechna práva říci, že obě odchylky jsou skutečnými bodovými odhady rozptylu populace (v tomto případ).

Ale jak je to možné? tj. dva různé bodové odhady !! Pokračujeme a najdeme společný bodový odhad, který je sdruženou odchylkou. Není to nic jiného než vážený průměr dvou bodových odhadů, kde váhy jsou míra volnosti spojená s každým vzorkem.

Doufám, že to vyjasní.

Odpověď

Přestože jsem na konverzaci velmi pozdě, možná mohu přidat něco užitečného:
Zdá se mi že OP chce vědět, proč (k čemu) bychom potřebovali odhad sdružené variability $ \ hat \ sigma_ {pooled} $ jako vážený průměr dvou vzorků (buď odchylka nebo směrodatná odchylka).

Pokud vím, hlavní praktická potřeba tohoto druh míry disperze vychází z chtění porovnat prostředky (pod-) skupin: takže pokud chci porovnat průměrnou délku nosu u 1) lidí, kteří nepodstoupili genovou terapii, 2) lidí, kteří podstoupili genovou terapii A a 3) lidé, kteří podstoupili genovou terapii B.
Abychom mohli lépe porovnat množství průměrných rozdílů v délce (mm), rozdělím průměrný rozdíl, řekněme, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ podle odhadu variability (zde standardní devi ation). V závislosti na velikosti druhé odmocniny sdružené odchylky (sdružená standardní odchylka) můžeme lépe posoudit velikost 2mm rozdílu mezi těmito skupinami (např. $ d = 2mm / 0,5mm = 4 $ vs. $ d = 2mm / 4mm = 0,5 $ – > Funguje genová terapie opravdu něco k délce nosu? A pokud ano, kolik? Když $ d = 4 $ nebo $ 2 \ pm 0,5 mm $ zdá se, že existuje “ stabilní “ nebo “ konzistentní “ nebo “ velký “ (ve srovnání s variabilitou) rozdíl mezi průměrnými délkami nosu, když $ d = 0,5 $ nebo $ 2 \ pm 4mm $ to nevypadá moc, relativně řečeno. v případě, že jsou všechny hodnoty v obou skupinách stejné, a proto zde není žádná variabilita Pokud by ve skupinách nebyl definován $ d $ , interpretace by byla $ 2 \ pm 0mm = 2mm $ přesně).
Toto je myšlenka velikosti efektu (teoreticky poprvé zavedena Neymanem a Pearsonem, pokud vím, ale tak či onak používána již dříve, viz Stigler, 1986. , například).
Takže to, co dělám, je porovnání průměrného rozdílu mezi skupinami se středními rozdíly v rámci stejných skupin, tj. vážený průměr odchylek (směrodatné odchylky). To dává větší smysl než porovnávat střední rozdíl mezi (pod-) skupinami se středním rozdílem v rámci “ celé “ skupiny, protože Jak jste ukázali (Hanciong), rozptyl (a směrodatná odchylka) celé skupiny obsahuje také rozdíly (rozdíly) skupinových prostředků.

teoretická potřeba opatření vyplývá z možnosti používat $ t $ -distribuce pro zjištění pravděpodobnosti pozorovaného středního rozdílu nebo extrémnějšího vzhledem k určité očekávané hodnotě středního rozdílu (p-hodnota např. pro Null-Hypothesis-Significance-Test , NHST nebo Neyman-Pearsonův test hypotéz nebo Fisherův test hypotéz, intervaly spolehlivosti atd.): $ p (e \ ge e_ {Observed} | \ mu_e = 0) $ .
Pokud vím, p-hodnota získaná $ t $ -distribution (a zejména $ F $ -distribuce v případech s více než 2 způsoby porovnání) poskytne správné odhady pravděpodobnosti pouze tehdy, když jsou oba (nebo všechny) vzorky čerpány z populací se stejnými odchylkami (homogenita rozptylu, jak bylo zdůrazněno v ostatních odpovědích již; to by mělo být popsáno podrobněji v m učebnice statistik ost). Myslím, že všechny distribuce založené na normální distribuci ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) předpokládá rozptyl větší než 0 a menší než $ \ infty $ , takže by to bylo nemožné najít p-hodnotu pro případ s variabilitou 0 (v tomto případě byste zjevně nepředpokládali, že jste svůj vzorek nakreslili z normální distribuce).
(To se také zdá intuitivně rozumné: pokud chci porovnat dva nebo více prostředků, pak by přesnost těchto prostředků měla být stejná nebo alespoň srovnatelná:
pokud spustím genovou terapii A u lidí, jejichž délka nosu je docela podobná, řekněme $ \ bar x \ pm 0,5 mm $ , ale v mé kontrolní skupině mám skupinu lidí s vysokou variabilitou délek nosu, řekněme $ \ bar x \ pm 4 mm $ nezdá se fér přímo porovnávat tyto prostředky, protože tyto prostředky nemají stejný “ průměrný význam „; ve skutečnosti mnohem vyšší odchylka / směrodatná odchylka v mé kontrolní skupině mohla naznačovat další podskupiny, možná rozdíly v délce nosu kvůli rozdílům v některých genech.)

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *