In Metody statystyczne badań nad rakiem; Tom 1 – Analiza badań kliniczno-kontrolnych autorzy Breslow i Day wyprowadzili statystykę do testowania jednorodności łączenia warstw w iloraz szans (równanie 4.30). Biorąc pod uwagę wartość statystyki, test określa, czy właściwe jest połączenie warstw razem i obliczenie pojedynczego ilorazu szans.
Na przykład, jeśli mamy tylko jedną tabelę kontyngencji 2×2:
(źródło: kean.edu )
iloraz szans zachorowania na chorobę z czynnikiem ryzyka w porównaniu z brakiem czynnika ryzyka wynosi:
$$ \ psi = (A * D) / (B * C) $$
jeśli mamy wiele tabel awaryjnych (na przykład stratyfikujemy według wieku group), możemy użyć oszacowania Mantela-Haenzela do obliczenia ilorazu szans dla wszystkich warstw $ I $ :
$$ \ psi_ {mh} = \ frac {\ sum_ {i = 1} ^ {I} A_i D_i / N_i} {\ sum_ {i = 1} ^ {I} B_i C_i / N_i} $$
Dla każdej tabeli kontyngentów mamy $ R1 = A + B $ , $ R2 = C + D $ i $ C1 = A + C $ , więc możemy wyrazić oczekiwany iloraz szans dla tej tabeli jako sumy:
$$ \ psi_ {mh} = \ frac {AD} {BC} = \ frac {A (R2-C1 + A)} {(R1-A) (C1-A)} $$
co daje równanie kwadratowe dla A. Niech $ a $ będzie rozwiązaniem tego równania kwadratowego (tylko jeden pierwiastek daje rozsądną odpowiedź).
Zatem rozsądnym testem adekwatności założenia o wspólnym ilorazie szans jest zsumowanie kwadratowego odchylenia; obserwowanych i dopasowanych wartości, każda znormalizowana według wariancji:
$$ \ chi ^ 2 = \ sum_ {i = 1} ^ {I} \ frac { (a_i – A_i) ^ {2}} {V_i} $$
gdzie rozbieżność to:
$$ V_i = \ left (\ frac {1} {A_i} + \ frac {1} {B_i} + \ frac {1} {C_i} + \ frac {1} {D_i} \ right) ^ {- 1} $$
Jeśli założenie jednorodności jest słuszne, a wielkość próby jest duża w stosunku do liczby warstw, ta statystyka jest zgodna z przybliżonym rozkładem chi-kwadrat na $ I-1 $ stopni swobody, a tym samym można określić wartość p.
Jeśli zamiast tego podzielimy $ I $ dzieli się na grupy $ H $ i podejrzewamy, że iloraz szans jest jednorodny w grupach, ale nie między nimi, Breslow i Day podają alternatywną statystykę (równanie 4.32) :
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ left (\ sum_i a_i – A_i \ right) ^ {2}} {\ sum _i V_i} $$
gdzie sumy $ i $ znajdują się nad warstwami w $ h ^ {th} $ ze statystyką chi-kwadrat z tylko $ H-1 $ stopniami swobody (zakładam inny Mantel -Oszacowanie Haenzela jest obliczane w każdej grupie).
Moje pytanie brzmi: równanie 4.32 nie wydaje mi się właściwe. Jeśli już, spodziewałbym się, że będzie miał postać:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ sum_i \ left (a_i – A_i \ right) ^ {2}} {\ sum_i V_i} $$
lub:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ sum_ {i} \ frac {(a_i – A_i) ^ {2}} {V_i} $$
z drugim równaniem przybliżającym rozkład chi-kwadrat na $ I-1 $ stopniach swobody.
Który z tych równań powinienem użyć?
Odpowiedź
Jest to bardziej bezpośrednie i dokładniejsze dzięki zastosowaniu binarnej regresji logistycznej model z terminem interakcji. Zwykle najlepszym testem jest test ilorazu prawdopodobieństwa $ \ chi ^ 2 $ z takiego modelu. Kontekst regresji pozwala również na testowanie zmiennych ciągłych, dostosowywanie do innych zmiennych i wiele innych rozszerzeń.
Komentarz ogólny: myślę, że spędzamy zbyt dużo czasu na uczeniu przypadków specjalnych i dobrze byłoby użyć ogólnych narzędzi, więcej czasu na radzenie sobie z komplikacjami, takimi jak brakujące dane, duże wymiary itp.