Em Métodos Estatísticos de Pesquisa do Câncer; Volume 1 – A análise dos estudos de caso-controle os autores Breslow e Day derivam uma estatística para testar a homogeneidade dos estratos combinados em uma razão de chances (equação 4.30). Dado o valor da estatística, o teste determina se é apropriado combinar estratos e calcular um único odds ratio.
Por exemplo, se tivermos apenas uma tabela de contingência 2×2:
(fonte: kean.edu )
o odds ratio para pegar uma doença com um fator de risco em comparação com não ter o fator de risco é:
se tivermos várias tabelas de contingência (por exemplo, estratificamos por idade ), podemos usar a estimativa de Mantel-Haenzel para calcular a razão de chances em todos os estratos $ I $ :
$$ \ psi_ {mh} = \ frac {\ sum_ {i = 1} ^ {I} A_i D_i / N_i} {\ sum_ {i = 1} ^ {I} B_i C_i / N_i} $$
Para cada tabela de contingência, temos $ R1 = A + B $ , $ R2 = C + D $ e $ C1 = A + C $ para que possamos expressar a razão de chances esperada para essa tabela em termos de totais:
$$ \ psi_ {mh} = \ frac {AD} {BC} = \ frac {A (R2-C1 + A)} {(R1-A) (C1-A)} $$
que fornece uma equação quadrática para A. Seja $ a $ a solução para esta equação quadrática (apenas uma raiz fornece uma resposta razoável).
Assim, um teste razoável para a adequação da suposição de um odds ratio comum é somar o desvio ao quadrado; de valores observados e ajustados, cada um padronizado por sua variância:
$$ \ chi ^ 2 = \ sum_ {i = 1} ^ {I} \ frac { (a_i – A_i) ^ {2}} {V_i} $$
onde a variação é:
$$ V_i = \ left (\ frac {1} {A_i} + \ frac {1} {B_i} + \ frac {1} {C_i} + \ frac {1} {D_i} \ right) ^ {- 1} $$
Se a suposição de homogeneidade for válida, e o tamanho da amostra for grande em relação ao número de estratos, esta estatística segue uma distribuição qui-quadrado aproximada em $ I-1 $ graus de liberdade e, portanto, um valor p pode ser determinado.
Se, em vez disso, dividirmos o $ I $ estratos em $ H $ grupos e suspeitamos que as razões de probabilidade são homogêneas dentro dos grupos, mas não entre eles, Breslow e Day fornecem uma estatística alternativa (equação 4.32) :
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ left (\ sum_i a_i – A_i \ right) ^ {2}} {\ sum _i V_i} $$
onde as somas $ i $ são sobre estratos no $ h ^ {th} $ grupo com a estatística sendo qui-quadrado com apenas $ H-1 $ graus de liberdade (presumo um Mantel diferente – A estimativa de Haenzel é calculada dentro de cada grupo).
Minha pergunta é a equação 4.32 não parece certa para mim. Se alguma coisa, eu esperava que fosse da forma:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ sum_i \ left (a_i – A_i \ right) ^ {2}} {\ sum_i V_i} $$
ou:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ sum_ {i} \ frac {(a_i – A_i) ^ {2}} {V_i} $$
com a última equação aproximando-se de uma distribuição qui-quadrado em $ I-1 $ graus de liberdade.
Qual dos devo usar essas equações?
Resposta
Isso é tratado de forma mais direta e precisa por meio do uso de uma regressão logística binária modelo com um termo de interação. O melhor teste geralmente é o teste de razão de verossimilhança $ \ chi ^ 2 $ desse modelo. O contexto de regressão também permite testar variáveis contínuas, ajustar para outras variáveis e uma série de outras extensões.
Comentário geral: Acho que gastamos muito tempo ensinando casos especiais e faríamos bem em usar ferramentas gerais para que e mais tempo para lidar com complicações como dados ausentes, alta dimensionalidade, etc.