Co właściwie oznacza zbiorcza wariancja “ ”?

Jestem noobem w statystykach, więc czy możecie mi tutaj pomóc.

Moje pytanie jest następujące: Co robi zbiorcza wariancja faktycznie oznacza?

Kiedy szukam w Internecie wzoru na zbiorczą wariancję, znajduję wiele publikacji wykorzystujących następujący wzór (na przykład tutaj: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

\ rozpocząć {równanie} \ etykieta {równ .: stupidpooledvar} \ displaystyle S ^ 2_p = \ frac {S_1 ^ 2 (n_1-1) + S_2 ^ 2 (n_2-1)} {n_1 + n_2 – 2} \ end {equation}

Ale co to oznacza właściwie obliczyć? Ponieważ kiedy używam tego wzoru do obliczenia mojej puli wariancji, daje mi ona złą odpowiedź.

Na przykład rozważmy tę „próbę nadrzędną”:

\ begin {equation} \ label { eq: parentample} 2,2,2,2,2,2,8,8,8,8,8 \ end {equation}

Wariancja tej próbki nadrzędnej to $ S ^ 2_p = 10 $, a jego średnia to $ \ bar {x} _p = 5 $.

Teraz przypuśćmy, że podzielę tę próbkę nadrzędną na dwie podpróbki:

  1. Pierwsza podpróbka to 2,2,2,2,2, ze średnią $ \ bar {x} _1 = 2 $ i wariancja $ S ^ 2_1 = 0 $.
  2. Druga podpróbka to 8,8,8,8,8,8 ze średnią $ \ bar {x} _2 = 8 $ i wariancja $ S ^ 2_2 = 0 $.

Jasne jest, że użycie powyższego wzoru do obliczenia wariancji zbiorczej / rodzicielskiej tych dwóch podprób da wynik zero, ponieważ $ S_1 = 0 $ i $ S_2 = 0 $. Co więc właściwie oblicza ta formuła?

Z drugiej strony, po dłuższym wyprowadzeniu, stwierdziłem, że formuła, która daje poprawną wariancję zbiorczą / rodzicielską, to:

\ rozpocząć {równanie} \ etykieta {równ.: smartpooledvar} \ Displaystyle S ^ 2_p = \ Frac {S_1 ^ 2 (n_1-1) + n_1 d_1 ^ 2 + S_2 ^ 2 (n_2-1) + n_2 d_2 ^ 2} {n_1 + n_2 – 1} \ end {equation}

W powyższym wzorze $ d_1 = \ bar {x_1} – \ bar {x} _p $ i $ d_2 = \ bar {x_2 } – \ bar {x} _p $.

Znalazłem podobny wzór do mojego, na przykład tutaj: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html , a także w Wikipedii. Chociaż muszę przyznać, że nie wyglądają one dokładnie tak samo jak moje.

Więc znowu, co właściwie oznacza zbiorcza wariancja? Czy nie powinna oznaczać wariancji próbki rodzicielskiej z dwóch podprób ? A może całkowicie się mylę?

Z góry dziękuję.


EDYCJA 1: Ktoś mówi, że moje dwie podpróbki powyżej są patologiczne, ponieważ mają zerową wariancję. Cóż, mógłbym podać inny przykład. Rozważ przykład dla rodziców:

\ begin {equation} \ label {eq: parentample2} 1,2,3,4,5,46,47,48,49,50 \ end {equation}

Wariancja tej próbki nadrzędnej to $ S ^ 2_p = 564,7 $, a jej średnia to $ \ bar {x} _p = 25,5 $.

Teraz przypuśćmy, że podzielę tę próbkę nadrzędną na dwie podpróbki:

  1. Pierwsza podpróbka to 1,2,3,4,5 ze średnią $ \ bar {x} _1 = 3 $ i wariancja $ S ^ 2_1 = 2,5 $.
  2. Druga podpróbka to 46,47,48,49,50 ze średnią $ \ bar {x} _2 = 48 $ i wariancja $ S ^ 2_2 = 2,5 $.

Teraz, jeśli użyjesz formuły literatury do obliczenia puli wariancji, otrzymasz 2,5, co jest całkowicie błędne, ponieważ wariancja rodzicielska / puli powinna wynosić 564,7. Zamiast tego, jeśli użyjesz „mojej formuły”, otrzymasz poprawną odpowiedź.

Proszę zrozumieć, używam tutaj skrajnych przykładów, aby pokazać ludziom, że formuła rzeczywiście jest błędna. Jeśli użyję „normalnych danych”, które nie mają wielu odmian (skrajne przypadki), wtedy wyniki z tych dwóch formuł będą bardzo podobne i ludzie mogą odrzucić różnicę z powodu błędu zaokrąglenia, a nie dlatego, że sama formuła jest źle.

Komentarze

Odpowiedź

Krótko mówiąc, wariancja zbiorcza jest (nieobciążoną) oszacowaniem wariancji w każdej próbie przy założeniu / ograniczeniu, że te wariancje są równe.

Jest to wyjaśnione, zmotywowane i szczegółowo przeanalizowane w wpisie Wikipedii dotyczącym puli wariancji .

Robi to nie oszacuj wariancję nowej„ metapróbki ”utworzonej przez połączenie dwóch pojedynczych próbek, tak jak przypuszczałeś. Jak już odkryłeś, oszacowanie tego wymaga zupełnie innego wzoru.

Komentarze

  • Założenie ” równości ” (to znaczy ta sama populacja, w której zrealizowano te próbki) nie jest konieczne ogólnie do zdefiniowania, co to jest – ” połączone „. Połączone oznacza po prostu uśrednione, omnibus (patrz mój komentarz do Tima).
  • @ttnphns Myślę, że założenie równości jest konieczne, aby nadać połączonej wariancji znaczenie koncepcyjne (o które prosił OP), które wykracza poza tylko werbalne opis operacji matematycznych, które wykonuje na wariancji próbki. Jeśli założymy, że wariancje populacji nie są równe, ' nie jest jasne, co możemy uznać za oszacowanie wariancji zbiorczej. Oczywiście moglibyśmy po prostu pomyśleć o tym jako o połączeniu dwóch wariancji i na tym poprzestać, ale to ' jest mało pouczające w przypadku braku jakiejkolwiek motywacji do chęci połączenia rozbieżności na pierwszym miejscu.
  • Jake, ja ' nie zgadzam się z tym, biorąc pod uwagę konkretną kwestię PO, ale chciałem porozmawiać definicja słowa ” w puli „, że ' dlaczego powiedziałem ” ogólnie „.
  • @JakeWestfall Twoja odpowiedź jest jak dotąd najlepszą odpowiedzią. Dziękuję Ci. Chociaż nadal nie jestem pewien jednej rzeczy. Według Wikipedii zbiorcza wariancja jest metodą szacowania wariancji kilku różnych populacji, gdy średnia każdej populacji może być inna , ale można założyć, że wariancja każdej populacji jest taka sama .
  • @JakeWestfall: Więc jeśli obliczamy sumaryczną wariancję z dwóch różnych populacji z różnymi średnimi, co ona właściwie oblicza? Ponieważ pierwsza wariancja mierzy zmienność w odniesieniu do pierwszej średniej, a druga wariancja w odniesieniu do drugiej średniej. Nie ' nie wiem, jakie dodatkowe informacje można uzyskać przy ich obliczaniu.

Odpowiedź

Zmienność zbiorcza służy do łączenia razem wariancji z różnych próbek przez pobranie ich średniej ważonej w celu uzyskania wariancji „ogólnej”. Problem z twoim przykładem polega na tym, że jest to przypadek patologiczny, ponieważ każda z podprób ma wariancję równą zero. Taki przypadek patologiczny ma bardzo niewiele wspólnego z danymi, które zwykle napotykamy, ponieważ zawsze istnieje pewna zmienność, a jeśli jej nie ma, nie przejmujemy się takimi zmiennymi, ponieważ nie niosą one informacji. Należy zauważyć, że jest to bardzo prosta metoda i istnieją bardziej skomplikowane sposoby szacowania wariancji w hierarchicznych strukturach danych, które nie są podatne na takie problemy.

Jeśli chodzi o Twój przykład w edycji, pokazuje, że ważne jest, aby jasno określić swoje założenia przed rozpoczęciem analizy. Powiedzmy, że masz $ n $ punktów danych w $ k $ grupach, oznaczymy to jako $ x_ {1,1}, x_ {2,1}, \ dots, x_ {n- 1, k}, x_ {n, k} $, gdzie $ i $ -ty indeks w $ x_ {i, j} $ oznacza przypadki, a $ j $ -ty indeks oznacza indeksy grupowe. Istnieje kilka możliwych scenariuszy, możesz założyć, że wszystkie punkty pochodzą z tego samego rozkładu (dla uproszczenia przyjmijmy rozkład normalny),

$$ x_ {i, j} \ sim \ mathcal {{ N} (\ mu, \ sigma ^ 2) \ tag {1} $$

możesz założyć, że każda z podpróbek ma swoją własną średnią

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2) \ tag {2} $$

lub jego własna wariancja

$$ x_ { i, j} \ sim \ mathcal {N} (\ mu, \ sigma ^ 2_j) \ tag {3} $$

lub każdy z nich ma własne, odrębne parametry

$$ x_ {i, j} \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \ tag {4} $$

W zależności od twoich założeń, konkretna metoda może lub może nie być odpowiednie do analizy danych.

W pierwszym przypadku nie byłbyś zainteresowany szacowaniem wariancji wewnątrzgrupowych, ponieważ zakładałbyś, że wszystkie są takie same. Niemniej jednak, jeśli zagregujesz globalną wariancję z wariancji grupowych, otrzymasz taki sam wynik, jak przy użyciu wariancji zbiorczej, ponieważ definicja wariancji to

$$ \ mathrm {Var} (X) = \ frac {1} {n-1} \ sum_i (x_i – \ mu) ^ 2 $$

iw estymatorze zbiorczym najpierw mnożymy to przez $ n-1 $, następnie dodajemy razem i na koniec dzielimy przez $ n_1 + n_2 – 1 $.

W drugim przypadku, środki różnią się, ale masz wspólną wariancję. Ten przykład jest najbliższy Twojemu przykładowi w edycji. W tym scenariuszu wariancja zbiorcza poprawnie oszacuje globalną wariancję, podczas gdy oszacowanie wariancji dla całego zbioru danych spowoduje uzyskanie niepoprawnych wyników, ponieważ nie uwzględnisz faktu, że grupy mają różne średnie .

W trzecim przypadku nie ma sensu szacowanie wariancji „globalnej”, ponieważ zakłada się, że każda z grup ma własną wariancję.Nadal możesz być zainteresowany uzyskaniem oszacowania dla całej populacji, ale w takim przypadku zarówno (a) obliczenie indywidualnych wariancji na grupę, jak i (b) obliczenie globalnej wariancji z całego zbioru danych, może dać mylące wyniki . Jeśli masz do czynienia z tego rodzaju danymi, powinieneś pomyśleć o zastosowaniu bardziej skomplikowanego modelu, który uwzględnia hierarchiczną naturę danych.

Czwarty przypadek jest najbardziej ekstremalny i dość podobny do poprzedniego. W tym scenariuszu, jeśli chcesz oszacować globalną średnią i wariancję, potrzebujesz innego modelu i innego zestawu założeń. W takim przypadku można założyć, że dane mają strukturę hierarchiczną, a oprócz średnich wewnątrzgrupowych i wariancji istnieje wspólna wariancja wyższego poziomu, na przykład przy założeniu następującego modelu

$$ \ begin {align} x_ {i, j} & \ sim \ mathcal {N} (\ mu_j, \ sigma ^ 2_j) \\ \ mu_j & \ sim \ mathcal {N} (\ mu_0, \ sigma ^ 2_0) \\ \ sigma ^ 2_j & \ sim \ mathcal {IG} (\ alpha, \ beta) \ end {align} \ tag {5} $$

gdzie każda próbka ma swoje własne średnie i wariancje $ \ mu_j, \ sigma ^ 2_j $, które same są pobierane z popularnych dystrybucji. W takim przypadku należy użyć modelu hierarchicznego, który bierze pod uwagę zarówno zmienność niższego, jak i wyższego poziomu. Aby dowiedzieć się więcej na temat tego rodzaju modeli, zapoznaj się z książką Bayesian Data Analysis autorstwa Gelmana i in. i ich przykład ośmiu szkół . Jest to jednak model znacznie bardziej skomplikowany niż prosty sumaryczny estymator wariancji.

Komentarze

  • Zaktualizowałem moje pytanie innym przykładem. W tym przypadku odpowiedź z ” literatury ' wzoru ” jest nadal błędna. Rozumiem, że zwykle mamy do czynienia z ” normalnymi danymi „, w których nie ma skrajnego przypadku, jak w powyższym przykładzie. Jednak jako matematycy nie powinniście ' przejmować się tym, która formuła jest rzeczywiście poprawna, zamiast tego, która formuła ma zastosowanie w ” problemach codziennych / typowych „? Jeśli jakaś formuła jest zasadniczo błędna, należy ją odrzucić, zwłaszcza jeśli istnieje inna formuła, która sprawdza się we wszystkich przypadkach, patologiczna lub nie.
  • Powiedziałeś, że istnieją bardziej skomplikowane sposoby szacowania wariancji. Czy możesz mi pokazać te sposoby? Dziękuję
  • Tim, sumaryczna wariancja nie jest całkowitą wariancją połączonej próbki ” „. W statystykach ” połączone ” oznacza uśrednione ważone (kiedy mówimy o uśrednionych ilościach, takich jak wariancje, wagi bycie n ' s) lub po prostu zsumowane (kiedy mówimy o sumach, takich jak rozproszenia, sumy kwadratów) . Prosimy o ponowne rozważenie swojej terminologii (doboru słów) w odpowiedzi.
  • Chociaż poza bieżącym tematem, tutaj jest interesujące pytanie dotyczące ” wspólnych ” pojęcie wariancji. stats.stackexchange.com/q/208175/3277
  • Hanciong. Nalegam, aby ” zebrane ” ogólnie, a nawet konkretnie ” połączone wariancje ” generalnie nie wymaga żadnego założenia, takiego jak: grupy pochodzą z populacji o równych wariancjach. Łączenie to po prostu mieszanie (uśrednianie lub sumowanie ważone). To właśnie w ANOVA i podobnych okolicznościach dodajemy to założenie statystyczne.

Odpowiedź

Problem polega na tym, że po prostu łączysz próbki i szacujesz ich wariancję, zakładając, że pochodzą one z tego samego rozkładu, a zatem mają tę samą średnią. Ale generalnie interesuje nas kilka próbek o różnej średniej. Czy to ma sens?

Odpowiedź

Przypadek użycia zbiorczej wariancji występuje wtedy, gdy masz dwie próbki z dystrybucji, które:

  • może mieć różne średnie, ale
  • od których oczekujesz równej prawdziwej wariancji.

Przykładem tego jest sytuacja, w której mierzysz długość nosa Alicji $ n $ razy dla jednej próbki i mierzysz długość nosa Boba $ m $ razy dla drugiej. Z powodu błędu pomiaru mogą one dawać wiele różnych pomiarów w skali milimetrów. Ale spodziewasz się, że wariancja błędu pomiaru będzie taka sama bez względu na to, który nos mierzysz.

W tym przypadku, biorąc sumaryczną wariancję, możesz lepiej oszacować wariancję błędu pomiaru niż biorąc wariancję jednej próbki.

Komentarze

  • Dziękuję za odpowiedź, ale nadal nie ' nie rozumiem jednej rzeczy . Pierwsze dane przedstawiają wariancję w odniesieniu do długości nosa Alicji ', a drugie dane przedstawiają wariancję względem Boba ' długość nosa. Jeśli obliczasz zbiorczą wariancję na podstawie tych danych, co to właściwie oznacza? Ponieważ pierwsza wariancja mierzy odchylenie w odniesieniu do ' s Alicji, a druga w odniesieniu do Boba ' s, więc jakie dodatkowe informacje możemy uzyskać, obliczając ich wariancję zbiorczą? Są to zupełnie różne liczby.

Odpowiedź

Dzięki wariancji zbiorczej nie próbujemy oszacować wariancji większa próbka, używając mniejszych próbek. Dlatego te dwa przykłady, które podałeś, nie odnoszą się dokładnie do pytania.

Zbiorcza wariancja jest wymagana, aby uzyskać lepsze oszacowanie wariancji populacji, z dwóch próbek, które zostały losowo pobrane z tej populacji i otrzymały z różnymi szacunkami wariancji.

Przykład, próbujesz zmierzyć zmienność w nawykach palenia mężczyzn w Londynie. Próbujesz dwa razy, 300 mężczyzn z Londynu. Otrzymujesz dwie wariancje (prawdopodobnie trochę inne !). Teraz, ponieważ wykonałeś uczciwe losowe próbkowanie (najlepiej jak potrafisz! Ponieważ prawdziwe losowe próbkowanie jest prawie niemożliwe), masz wszelkie prawa, aby powiedzieć, że obie wariancje są prawdziwymi punktowymi szacunkami wariancji populacji (londyńscy mężczyźni w tym przypadku).

Ale jak to możliwe? tj. dwa różne oszacowania punktowe !! Tak więc idziemy dalej i znajdujemy wspólne oszacowanie punktowe, które jest połączoną wariancją. Jest to nic innego jak średnia ważona z dwóch oszacowań punktowych, gdzie wagi są stopniami swobody związanymi z każdą próbką.

Mam nadzieję, że to wyjaśnia.

Odpowiedź

Chociaż jestem bardzo spóźniony na rozmowę, może mogę dodać coś pomocnego:
Wydaje mi się że OP chce wiedzieć, dlaczego (po co) potrzebowalibyśmy zbiorczego oszacowania zmienności $ \ hat \ sigma_ {pooled} $ jako średniej ważonej z dwóch próbek (być it wariancja lub odchylenie standardowe).

O ile mi wiadomo, główna praktyczna potrzeba rodzaj miary dyspersji wynika z chęci porównania średnich (podgrup): więc jeśli chcę porównać średnią długość nosa dla 1) osób, które nie przeszły terapii genowej, 2) osób, które przeszły terapię genową A i 3) osoby, które przeszły terapię genową B.
Aby móc lepiej porównać wielkość średnich różnic długości (mm), dzielę średnią różnicę, powiedzmy, $ e = \ bar x_ {Control} – \ bar x_ {GTA} = 30mm-28mm = 2mm $ według oszacowania zmienności (tutaj odchylenie standardowe ation). W zależności od wielkości pierwiastka kwadratowego połączonej wariancji (zbiorcze odchylenie standardowe) możemy lepiej ocenić wielkość różnicy 2 mm między tymi grupami (np. $ d = 2mm / 0.5mm = 4 $ w porównaniu z $ d = 2mm / 4mm = 0,5 $ – > Czy terapia genowa A nie coś do długości nosa? A jeśli tak, to ile? Kiedy $ d = 4 $ lub $ 2 \ pm 0,5 mm $ wydaje się, że ” stabilny ” lub ” jest spójny ” lub ” duża ” (w porównaniu ze zmiennością) różnica między średnimi długościami nosa, kiedy $ d = 0,5 $ lub $ 2 \ pm 4mm $ nie wydaje się tak dużo, mówiąc względnie. przypadek, gdy wszystkie wartości w obu grupach są takie same, a zatem nie ma zmienności dow w grupach $ d $ nie zostanie zdefiniowany, ale interpretacja będzie następująca: $ 2 \ pm 0mm = 2mm $ dokładnie).
To jest idea wielkości efektu (pierwsza teoretycznie wprowadzona przez Neymana i Pearsona, o ile wiem, ale w takim czy innym rodzaju była używana wcześniej, patrz Stigler, 1986 , na przykład).
Więc to, co robię, to porównanie średniej różnicy między grupami ze średnimi różnicami w tych samych grupach, tj. średnią ważoną wariancji (odchylenia standardowe). Jest to bardziej sensowne niż porównywanie średniej różnicy między (podgrupami) ze średnią różnicą w grupie ” całej ” grupy, ponieważ Jak pokazałeś (Hanciong), wariancja (i odchylenie standardowe) całej grupy zawiera również różnicę (y) średnich grupowych.

teoretyczna potrzeba miary wynika z możliwości użycia matematyki $ t $ -distribution w celu znalezienia prawdopodobieństwa obserwowanej średniej różnicy lub bardziej ekstremalnej, biorąc pod uwagę pewną oczekiwaną wartość średniej różnicy (wartość p dla np. testu zerowej hipotezy , NHST lub test hipotezy Neymana-Pearsona lub test hipotezy Fishera, przedziały ufności itp.): $ p (e \ ge e_ {seen} | \ mu_e = 0) $ .
O ile wiem, wartość p uzyskana przez $ t $ -distribution (a zwłaszcza F $ -dystrybucja w przypadkach z więcej niż 2 średnimi do porównania) da prawidłowe oszacowania prawdopodobieństwa tylko wtedy, gdy obie (lub wszystkie) próbki zostaną pobrane z populacji o równych wariancjach (jednorodność wariancji, jak wskazano w innych odpowiedziach już; należy to opisać (bardziej) szczegółowo w m ost podręczniki statystyki). Myślę, że wszystkie dystrybucje oparte na normalnej dystrybucji ( $ t $ , $ F $ , $ \ chi ^ 2 $ ) przyjmuje wariancję większą niż 0 i mniejszą niż $ \ infty $ , więc byłoby to nie można znaleźć wartości p dla przypadku o zmienności a w granicach 0 (w tym przypadku oczywiście nie zakładałbyś, że pobrałeś swoją próbkę z rozkładu normalnego).
(To również wydaje się intuicyjnie rozsądne: jeśli chcę aby porównać dwie lub więcej średnich, wtedy precyzja tych średnich powinna być taka sama lub przynajmniej porównywalna:
jeśli przeprowadzę terapię genową A na osobach, których długość nosa jest dość podobna, powiedzmy $ \ bar x \ pm 0,5 mm $ , ale mam grupę osób o dużej zmienności długości nosa w mojej grupie kontrolnej, powiedz $ \ bar x \ pm 4mm $ bezpośrednie porównanie tych środków nie wydaje się sprawiedliwe, ponieważ tych środków nie ma to samo ” średnie znaczenie „; w rzeczywistości o wiele wyższa wariancja / odchylenie standardowe w mojej grupie kontrolnej może wskazywać na dalsze podgrupy, być może różnice w długości nosa z powodu różnic w niektórych genach.)

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *