Prawidłowe równanie dla statystyki Breslow-Day w teście jednorodności ilorazu szans

In Metody statystyczne badań nad rakiem; Tom 1 – Analiza badań kliniczno-kontrolnych autorzy Breslow i Day wyprowadzili statystykę do testowania jednorodności łączenia warstw w iloraz szans (równanie 4.30). Biorąc pod uwagę wartość statystyki, test określa, czy właściwe jest połączenie warstw razem i obliczenie pojedynczego ilorazu szans.

Na przykład, jeśli mamy tylko jedną tabelę kontyngencji 2×2:


(źródło: kean.edu )

iloraz szans zachorowania na chorobę z czynnikiem ryzyka w porównaniu z brakiem czynnika ryzyka wynosi:

$$ \ psi = (A * D) / (B * C) $$

jeśli mamy wiele tabel awaryjnych (na przykład stratyfikujemy według wieku group), możemy użyć oszacowania Mantela-Haenzela do obliczenia ilorazu szans dla wszystkich warstw $ I $ :

$$ \ psi_ {mh} = \ frac {\ sum_ {i = 1} ^ {I} A_i D_i / N_i} {\ sum_ {i = 1} ^ {I} B_i C_i / N_i} $$

Dla każdej tabeli kontyngentów mamy $ R1 = A + B $ , $ R2 = C + D $ i $ C1 = A + C $ , więc możemy wyrazić oczekiwany iloraz szans dla tej tabeli jako sumy:

$$ \ psi_ {mh} = \ frac {AD} {BC} = \ frac {A (R2-C1 + A)} {(R1-A) (C1-A)} $$

co daje równanie kwadratowe dla A. Niech $ a $ będzie rozwiązaniem tego równania kwadratowego (tylko jeden pierwiastek daje rozsądną odpowiedź).

Zatem rozsądnym testem adekwatności założenia o wspólnym ilorazie szans jest zsumowanie kwadratowego odchylenia; obserwowanych i dopasowanych wartości, każda znormalizowana według wariancji:

$$ \ chi ^ 2 = \ sum_ {i = 1} ^ {I} \ frac { (a_i – A_i) ^ {2}} {V_i} $$

gdzie rozbieżność to:

$$ V_i = \ left (\ frac {1} {A_i} + \ frac {1} {B_i} + \ frac {1} {C_i} + \ frac {1} {D_i} \ right) ^ {- 1} $$

Jeśli założenie jednorodności jest słuszne, a wielkość próby jest duża w stosunku do liczby warstw, ta statystyka jest zgodna z przybliżonym rozkładem chi-kwadrat na $ I-1 $ stopni swobody, a tym samym można określić wartość p.

Jeśli zamiast tego podzielimy $ I $ dzieli się na grupy $ H $ i podejrzewamy, że iloraz szans jest jednorodny w grupach, ale nie między nimi, Breslow i Day podają alternatywną statystykę (równanie 4.32) :

$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ left (\ sum_i a_i – A_i \ right) ^ {2}} {\ sum _i V_i} $$

gdzie sumy $ i $ znajdują się nad warstwami w $ h ^ {th} $ ze statystyką chi-kwadrat z tylko $ H-1 $ stopniami swobody (zakładam inny Mantel -Oszacowanie Haenzela jest obliczane w każdej grupie).

Moje pytanie brzmi: równanie 4.32 nie wydaje mi się właściwe. Jeśli już, spodziewałbym się, że będzie miał postać:

$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ sum_i \ left (a_i – A_i \ right) ^ {2}} {\ sum_i V_i} $$

lub:

$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ sum_ {i} \ frac {(a_i – A_i) ^ {2}} {V_i} $$

z drugim równaniem przybliżającym rozkład chi-kwadrat na $ I-1 $ stopniach swobody.

Który z tych równań powinienem użyć?

Odpowiedź

Jest to bardziej bezpośrednie i dokładniejsze dzięki zastosowaniu binarnej regresji logistycznej model z terminem interakcji. Zwykle najlepszym testem jest test ilorazu prawdopodobieństwa $ \ chi ^ 2 $ z takiego modelu. Kontekst regresji pozwala również na testowanie zmiennych ciągłych, dostosowywanie do innych zmiennych i wiele innych rozszerzeń.

Komentarz ogólny: myślę, że spędzamy zbyt dużo czasu na uczeniu przypadków specjalnych i dobrze byłoby użyć ogólnych narzędzi, więcej czasu na radzenie sobie z komplikacjami, takimi jak brakujące dane, duże wymiary itp.

Odpowiedź

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *