In Metodi statistici di ricerca sul cancro; Volume 1 – Lanalisi degli studi caso-controllo gli autori Breslow e Day derivano una statistica per verificare lomogeneità della combinazione degli strati in un odds ratio (equazione 4.30). Dato il valore della statistica, il test determina se è appropriato combinare gli strati insieme e calcolare un singolo odds ratio.
Ad esempio, se abbiamo solo una tabella di contingenza 2×2:
(fonte: kean.edu )
lodds ratio per contrarre una malattia con un fattore di rischio rispetto a non avere il fattore di rischio è:
$$ \ psi = (A * D) / (B * C) $$
se abbiamo più tabelle di contingenza (ad esempio, stratifichiamo per età group), possiamo utilizzare la stima di Mantel-Haenzel per calcolare il rapporto di probabilità su tutti gli $ I $ strati:
$$ \ psi_ {mh} = \ frac {\ sum_ {i = 1} ^ {I} A_i D_i / N_i} {\ sum_ {i = 1} ^ {I} B_i C_i / N_i} $$
Per ogni tabella di contingenza abbiamo $ R1 = A + B $ , $ R2 = C + D $ e $ C1 = A + C $ in modo da poter esprimere il rapporto di probabilità previsto per quella tabella in termini di totali:
$$ \ psi_ {mh} = \ frac {AD} {BC} = \ frac {A (R2-C1 + A)} {(R1-A) (C1-A)} $$
che fornisce unequazione quadratica per A. Sia $ a $ la soluzione a questa equazione quadratica (solo una radice fornisce una risposta ragionevole).
Quindi un test ragionevole per ladeguatezza dellassunzione di un odds ratio comune è quello di sommare la deviazione al quadrato; di valori osservati e stimati, ciascuno standardizzato dalla sua varianza:
$$ \ chi ^ 2 = \ sum_ {i = 1} ^ {I} \ frac { (a_i – A_i) ^ {2}} {V_i} $$
dove la varianza è:
$$ V_i = \ left (\ frac {1} {A_i} + \ frac {1} {B_i} + \ frac {1} {C_i} + \ frac {1} {D_i} \ right) ^ {- 1} $$
Se lipotesi di omogeneità è valida e la dimensione del campione è grande rispetto al numero di strati, questa statistica segue una distribuzione chi-quadrato approssimativa su $ I-1 $ gradi di libertà e quindi un valore p può essere determinato.
Se invece dividiamo il $ I $ si inserisce nei gruppi $ H $ e sospettiamo che gli odds ratio siano omogenei allinterno dei gruppi ma non tra di loro, Breslow e Day forniscono una statistica alternativa (equazione 4.32) :
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ left (\ sum_i a_i – A_i \ right) ^ {2}} {\ sum _i V_i} $$
dove le sommazioni $ i $ sono su strati nel $ h ^ {th} $ gruppo con la statistica chi-quadrato con solo $ H-1 $ gradi di libertà (presumo un Mantel diverso -La stima di Haenzel viene calcolata allinterno di ogni gruppo).
La mia domanda è che lequazione 4.32 non mi sembra giusta. Semmai, mi aspettavo che fosse nella forma:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ sum_i \ left (a_i – A_i \ right) ^ {2}} {\ sum_i V_i} $$
oppure:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ sum_ {i} \ frac {(a_i – A_i) ^ {2}} {V_i} $$
con lultima equazione che approssima una distribuzione chi-quadrato su $ I-1 $ gradi di libertà.
Quale dei queste equazioni dovrei usare?
Risposta
Questo viene gestito in modo più diretto e accurato attraverso luso di una regressione logistica binaria modello con un termine di interazione. Il test solitamente migliore è il test del rapporto di verosimiglianza $ \ chi ^ 2 $ da tale modello. Il contesto di regressione consente anche di testare variabili continue, aggiustare per altre variabili e una miriade di altre estensioni.
Commento generale: penso che passiamo troppo tempo a insegnare casi speciali e faremmo bene a utilizzare strumenti generali in modo da avere e più tempo per affrontare complicazioni come dati mancanti, alta dimensionalità, ecc.