I Statistiske metoder for kreftforskning; Bind 1 – Analysen av case-control studier forfatterne Breslow og Day utleder en statistikk for å teste homogeniteten til å kombinere strata til et oddsforhold (ligning 4.30). Gitt verdien av statistikken, bestemmer testen om det er hensiktsmessig å kombinere lag sammen og beregne et enkelt oddsforhold.
For eksempel hvis vi bare har en 2×2 beredskapstabell:
(kilde: kean.edu )
oddsforholdet for å få en sykdom med en risikofaktor sammenlignet med ikke å ha risikofaktoren er:
$$ \ psi = (A * D) / (B * C) $$
hvis vi har flere beredskapstabeller (for eksempel stratifiserer vi etter alder gruppe), kan vi bruke estimatet Mantel-Haenzel til å beregne oddsforholdet over alle $ I $ strata:
$$ \ psi_ {mh} = \ frac {\ sum_ {i = 1} ^ {I} A_i D_i / N_i} {\ sum_ {i = 1} ^ {I} B_i C_i / N_i} $$
For hver beredskapstabell har vi $ R1 = A + B $ , $ R2 = C + D $ og $ C1 = A + C $ slik at vi kan uttrykke det forventede oddsforholdet for den tabellen når det gjelder totalene:
$$ \ psi_ {mh} = \ frac {AD} {BC} = \ frac {A (R2-C1 + A)} {(R1-A) (C1-A)} $$
som gir en kvadratisk ligning for A. La $ a $ være løsningen på denne kvadratiske ligningen (bare en rot gir et rimelig svar).
Dermed er en rimelig test for tilstrekkelig antagelsen om et felles oddsforhold å oppsummere kvadratavviket; av observerte og tilpassede verdier, hver standardisert etter avvik:
$$ \ chi ^ 2 = \ sum_ {i = 1} ^ {I} \ frac { (a_i – A_i) ^ {2}} {V_i} $$
der avviket er:
$$ V_i = \ left (\ frac {1} {A_i} + \ frac {1} {B_i} + \ frac {1} {C_i} + \ frac {1} {D_i} \ right) ^ {- 1} $$
Hvis antagelsen om homogenitet er gyldig, og størrelsen på prøven er stor i forhold til antall lag, følger denne statistikken en tilnærmet kikvadratfordeling på $ I-1 $ frihetsgrader og dermed en p-verdi kan bestemmes.
Hvis vi i stedet deler $ I $ strata i $ H $ grupper, og vi mistenker at oddsforholdene er homogene i grupper, men ikke mellom dem, Breslow og Day gir en alternativ statistikk (ligning 4.32) :
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ left (\ sum_i a_i – A_i \ right) ^ {2}} {\ sum _i V_i} $$
der $ i $ summasjonene er over lag i $ h ^ {th} $ gruppe med statistikken som chi-kvadrat med bare $ H-1 $ frihetsgrader (jeg antar en annen mantel -Haenzel estimat beregnes innenfor hver gruppe).
Mitt spørsmål er ligning 4.32 virker ikke riktig for meg. Hvis noe, forventer jeg at det har formen:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ sum_i \ left (a_i – A_i \ right) ^ {2}} {\ sum_i V_i} $$
eller:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ sum_ {i} \ frac {(a_i – A_i) ^ {2}} {V_i} $$
med sistnevnte ligning tilnærmet en chi-kvadratfordeling på $ I-1 $ frihetsgrader.
Hvilken av disse ligningene skal jeg bruke?
Svar
Dette håndteres mer direkte og mer nøyaktig ved bruk av en binær logistisk regresjon modell med et samhandlingsbegrep. Den vanligvis beste testen er sannsynlighetsforholdet $ \ chi ^ 2 $ -test fra en slik modell. Regresjonskonteksten lar også en teste kontinuerlige variabler, justere for andre variabler og en rekke andre utvidelser.
Generell kommentar: Jeg synes vi bruker for mye tid på å undervise i spesielle saker og vil gjøre det bra å bruke generelle verktøy slik at vi mer tid til å håndtere komplikasjoner som manglende data, høy dimensjonalitet osv.