En Métodos estadísticos de investigación del cáncer; Volumen 1 – El análisis de estudios de casos y controles los autores Breslow y Day derivan una estadística para probar la homogeneidad de la combinación de estratos en una razón de probabilidades (ecuación 4.30). Dado el valor de la estadística, la prueba determina si es apropiado combinar estratos y calcular una sola razón de probabilidades.
Por ejemplo, si solo tenemos una tabla de contingencia 2×2:
(fuente: kean.edu )
la razón de probabilidades de contraer una enfermedad con un factor de riesgo en comparación con no tener el factor de riesgo es:
$$ \ psi = (A * D) / (B * C) $$
si tenemos varias tablas de contingencia (por ejemplo, estratificamos por edad group), podemos usar la estimación de Mantel-Haenzel para calcular la razón de probabilidades en todos los $ I $ estratos:
$$ \ psi_ {mh} = \ frac {\ sum_ {i = 1} ^ {I} A_i D_i / N_i} {\ sum_ {i = 1} ^ {I} B_i C_i / N_i} $$
Para cada tabla de contingencia tenemos $ R1 = A + B $ , $ R2 = C + D $ y $ C1 = A + C $ para que podamos expresar la razón de probabilidades esperada para esa tabla en términos de los totales:
$$ \ psi_ {mh} = \ frac {AD} {BC} = \ frac {A (R2-C1 + A)} {(R1-A) (C1-A)} $$
que da una ecuación cuadrática para A. Sea $ a $ la solución a esta ecuación cuadrática (solo una raíz da una respuesta razonable).
Por lo tanto, una prueba razonable para determinar la idoneidad del supuesto de una razón de probabilidades común es sumar la desviación al cuadrado; de valores observados y ajustados, cada uno estandarizado por su varianza:
$$ \ chi ^ 2 = \ sum_ {i = 1} ^ {I} \ frac { (a_i – A_i) ^ {2}} {V_i} $$
donde la variación es:
$$ V_i = \ left (\ frac {1} {A_i} + \ frac {1} {B_i} + \ frac {1} {C_i} + \ frac {1} {D_i} \ right) ^ {- 1} $$
Si el supuesto de homogeneidad es válido y el tamaño de la muestra es grande en relación con el número de estratos, esta estadística sigue una distribución de chi-cuadrado aproximada en $ I-1 $ grados de libertad y, por tanto, se puede determinar un valor p.
Si en cambio dividimos el $ I $ estratos en $ H $ grupos y sospechamos que las razones de probabilidad son homogéneas dentro de los grupos pero no entre ellos, Breslow y Day dan una estadística alternativa (ecuación 4.32) :
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ left (\ sum_i a_i – A_i \ right) ^ {2}} {\ sum _i V_i} $$
donde las sumas de $ i $ están sobre estratos en el $ h ^ {th} $ grupo con la estadística chi-cuadrado con solo $ H-1 $ grados de libertad (supongo que un Mantel diferente -La estimación de Haenzel se calcula dentro de cada grupo).
Mi pregunta es que la ecuación 4.32 no me parece correcta. En todo caso, espero que tenga la forma:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ frac {\ sum_i \ left (a_i – A_i \ right) ^ {2}} {\ sum_i V_i} $$
o:
$$ \ chi ^ 2 = \ sum_ {h = 1} ^ {H} \ sum_ {i} \ frac {(a_i – A_i) ^ {2}} {V_i} $$
con la última ecuación que se aproxima a una distribución de chi-cuadrado en $ I-1 $ grados de libertad.
¿Cuál de ¿Estas ecuaciones debo usar?
Respuesta
Esto se maneja de manera más directa y precisa mediante el uso de una regresión logística binaria modelo con un término de interacción. La mejor prueba generalmente es la prueba de razón de probabilidad $ \ chi ^ 2 $ de dicho modelo. El contexto de regresión también permite probar variables continuas, ajustar otras variables y una serie de otras extensiones.
Comentario general: creo que pasamos demasiado tiempo enseñando casos especiales y haríamos bien en utilizar herramientas generales para que podamos Más tiempo para lidiar con complicaciones como datos faltantes, alta dimensionalidad, etc.