I Statistiska metoder för cancerforskning; Volym 1 – Analysen av fallkontrollstudier författarna Breslow och Day härleder en statistik för att testa för homogeniteten i att kombinera skikt i ett oddsförhållande (ekvation 4.30). Med tanke på statistikens värde avgör testet om det är lämpligt att kombinera skikt tillsammans och beräkna ett enda oddsförhållande.
Till exempel om vi bara har en 2×2 beredskapstabell:
(källa: kean.edu )
oddskvoten för att få en sjukdom med en riskfaktor jämfört med att inte ha en riskfaktor är:
$$ \ psi = (A * D) / (B * C) $$
om vi har flera beredskapstabeller (till exempel stratifierar vi efter ålder grupp), kan vi använda Mantel-Haenzel-uppskattningen för att beräkna oddskvoten över alla $ I $ strata:
$$ \ psi_ {mh} = \ frac {\ sum_ {i = 1} ^ {I} A_i D_i / N_i} {\ sum_ {i = 1} ^ {I} B_i C_i / N_i} $$
För varje beredskapstabell har vi $ R1 = A + B $ , $ R2 = C + D $ och $ C1 = A + C $ så att vi kan uttrycka det förväntade oddsförhållandet för den tabellen i termer av totalerna:
$$ \ psi_ {mh} = \ frac {AD} {BC} = \ frac {A (R2-C1 + A)} {(R1-A) (C1-A)} $$
vilket ger en kvadratisk ekvation för A. Låt $ a $ vara lösningen på denna kvadratiska ekvation (endast en rot ger ett rimligt svar).
Således är ett rimligt test för att adekvat antagandet av ett gemensamt oddskvot är att summera kvadratavvikelsen; av observerade och monterade värden, var och en standardiserad efter dess varians:
$$ \ chi ^ 2 = \ sum_ {i = 1} ^ {I} \ frac { (a_i – A_i) ^ {2}} {V_i} $$
där variansen är:
$$ V_i = \ left (\ frac {1} {A_i} + \ frac {1} {B_i} + \ frac {1} {C_i} + \ frac {1} {D_i} \ höger) ^ {- 1} $$
Om antagandet om homogenitet är giltigt och provets storlek är stor i förhållande till antalet skikt, följer denna statistik en ungefärlig chi-kvadratfördelning på $ I-1 $ frihetsgrader och därmed ett p-värde kan bestämmas.
Om vi istället delar upp $ I $ strata i $ H $ grupper och vi misstänker att oddskvoterna är homogena inom grupper men inte mellan dem, Breslow och Day ger en alternativ statistik (ekvation 4.32) :
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ left (\ sum_i a_i – A_i \ right) ^ {2}} {\ sum _i V_i} $$
där $ i $ summeringarna är över strata i $ h ^ {th} $ grupp med statistiken chi-kvadrat med endast $ H-1 $ frihetsgrader (jag antar en annan mantel -Haenzel-uppskattning beräknas inom varje grupp).
Min fråga är ekvation 4.32 verkar inte vara rätt för mig. Om något, skulle jag förvänta mig att den skulle ha formen:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ sum_i \ left (a_i – A_i \ right) ^ {2}} {\ sum_i V_i} $$
eller:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ sum_ {i} \ frac {(a_i – A_i) ^ {2}} {V_i} $$
med den senare ekvationen ungefär en chi-kvadratfördelning på $ I-1 $ frihetsgrader.
Vilken av dessa ekvationer ska jag använda?
Svar
Detta hanteras mer direkt och mer exakt genom användning av en binär logistisk regression modell med en interaktionsterm. Det vanligtvis bästa testet är sannolikhetsförhållandet $ \ chi ^ 2 $ -test från en sådan modell. Regressionskontexten tillåter också att testa kontinuerliga variabler, justera för andra variabler och en mängd andra tillägg.
Allmän kommentar: Jag tycker att vi lägger för mycket tid på att lära ut specialfall och skulle göra det bra att använda allmänna verktyg så att vi har mer tid att hantera komplikationer som saknad data, hög dimensionalitet osv.