A Rákkutatási Statisztikai Módszerekben; 1. kötet – Az eset-kontroll tanulmányok elemzése , Breslow és Day szerzők statisztikát kapnak a rétegek esélyegyenlőségbe való egyesítésének homogenitásának tesztelésére (4.30. Egyenlet). Tekintettel a statisztika értékére, a teszt meghatározza, hogy helyénvaló-e a rétegeket összevonni és egy esélyhányadost kiszámítani.
Például, ha csak egy 2×2-es kontingenciatáblázatunk van:
(forrás: kean.edu )
A kockázati tényező nélküli betegség kialakulásának esélyaránya a kockázati tényező hiányához képest:
$$ \ psi = (A * D) / (B * C) $$
ha több készenléti táblázatunk van (például kor szerint rétegezzük csoport), a Mantel-Haenzel becsléssel kiszámíthatjuk az esélyek arányát az összes $ I $ rétegben:
$$ \ psi_ {mh} = \ frac {\ sum_ {i = 1} ^ {I} A_i D_i / N_i} {\ sum_ {i = 1} ^ {I} B_i C_i / N_i} $$
Minden kontingenciatáblához van $ R1 = A + B $ , $ R2 = C + D $ és $ C1 = A + C $ , így kifejezhetjük az adott táblázat várható esélyhányadosát az összesítésben:
$$ \ psi_ {mh} = \ frac {AD} {BC} = \ frac {A (R2-C1 + A)} {(R1-A) (C1-A)} $$
, amely másodfokú egyenletet ad A-nak. Legyen $ a $ a megoldás erre a másodfokú egyenletre (csak egy gyök ad ésszerű választ).
Tehát a közös esélyhányados feltételezésének megfelelő tesztje a négyzetes eltérés összegzése; megfigyelt és illesztett értékek, mindegyiket a varianciájával standardizálva:
$$ \ chi ^ 2 = \ sum_ {i = 1} ^ {I} \ frac { (a_i – A_i) ^ {2}} {V_i} $$
ahol a variancia található:
$$ V_i = \ balra (\ frac {1} {A_i} + \ frac {1} {B_i} + \ frac {1} {C_i} + \ frac {1} {D_i} \ jobbra) ^ {- 1} $$
Ha a homogenitás feltételezése érvényes, és a minta mérete nagy a rétegek számához képest, akkor ez a statisztika hozzávetőleges khi-négyzet eloszlást követ a $ I-1 $ szabadságfok és így egy p-érték meghatározható.
Ha e helyett elosztjuk a $ I $ értéket rétegek $ H $ csoportokba, és gyanítjuk, hogy az esélyek aránya homogén a csoportokon belül, de azok között nem, Breslow és Day alternatív statisztikát ad (4.32. egyenlet) :
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ left (\ sum_i a_i – A_i \ right) ^ {2}} {\ összeg _i V_i} $$
ahol a $ i $ összegzések meghaladják a $ h ^ {th} $ csoport, a statisztika chi-négyzet, csak $ H-1 $ szabadságfokkal (más Mantelt feltételezek) -Haenzel-becslés minden csoporton belül kiszámításra kerül).
A kérdésem, hogy a 4.32. Egyenlet számomra nem tűnik helyesnek. Ha bármi lenne, azt várnám, hogy a következő formájú legyen:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ sum_i \ left (a_i – A_i \ right) ^ {2}} {\ sum_i V_i} $$
vagy:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ sum_ {i} \ frac {(a_i – A_i) ^ {2}} {V_i} $$
az utóbbi egyenlettel közelítve a chi-négyzet eloszlást $ I-1 $ szabadságfokon.
Melyik ezeket az egyenleteket kellene használnom?
Válasz
Ezt közvetlenebbül és pontosabban egy bináris logisztikai regresszió segítségével lehet kezelni modell interakciós kifejezéssel. Az általában a legjobb teszt a valószínűségi arány $ \ chi ^ 2 $ teszt egy ilyen modelltől. A regressziós kontextus lehetővé teszi a folyamatos változók tesztelését, más változókkal való kiigazítást és számos más kiterjesztést is.
Általános megjegyzés: Úgy gondolom, hogy túl sok időt töltünk speciális esetek tanításával, és jól tennénk, ha általános eszközöket használnánk, hogy még több idő az olyan szövődmények kezelésére, mint a hiányzó adatok, a nagy dimenzióképesség stb.