Siempre he pensado en la regresión logística como simplemente un caso especial de regresión binomial donde la función de enlace es la función logística (en lugar de, digamos, un probit función).
Sin embargo, al leer las respuestas a otra pregunta , parece que estoy confundido, y hay un diferencia entre la regresión logística y la regresión binomial con un enlace logístico.
¿Cuál es la diferencia?
Respuesta
La regresión logística es una regresión binomial con la función de enlace «logística»:
$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$
Aunque también creo que la regresión logística generalmente se aplica a proporciones binomiales en lugar de conteos binomiales.
Comentarios
- ¿Qué quiere decir con que la regresión logística se aplica generalmente a proporciones en lugar de conteos? Supongamos que ' estoy tratando de predecir si la gente asistirá a una fiesta o no, y que para una fiesta en particular, sé que asistieron 9 personas y 1 no. ¿Quiere decir que La regresión logística toma esto como un ejemplo de entrenamiento (es decir, esta fiesta tuvo una tasa de éxito de 0,9), mientras que la regresión binomial con un vínculo tomaría esto como 10 ejemplos de entrenamiento (9 éxitos, 1 fracaso).
- @ raehtin – en ambos casos sería $ 1 $ muestra / caso de entrenamiento, con $ (n_i, f_i) = (10,0.9) $ y $ (n_i, x_i) = (10,9) $ respectivamente. La diferencia es la forma de las funciones de media y varianza. Para binomio, la media es $ \ mu_i = n_ip_i $, el enlace canoncial ahora es $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ right) $ (también llamado " parámetro natural "), y la función de varianza es $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ con parámetro de dispersión $ \ phi_i = 1 $. Para logística tenemos la media $ \ mu_i = p_i $, el enlace anterior, la función de varianza de $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ y una dispersión igual a $ \ phi_i = \ frac {1} {n_i } $.
- Con logística, $ n_i $ se separa de las funciones de media y varianza, por lo que puede tenerse en cuenta más fácilmente a través de la ponderación
- Ah, entendido, creo que veo. ¿Significa esto que producen resultados equivalentes (simplemente obtenidos de una manera diferente)?
- @raegtin – Creo que sí. Los pesos GLM, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $, son iguales en ambos casos y la función de enlace produce el mismo valor logit. Por lo tanto, siempre que las variables X sean las mismas, debería dar los mismos resultados.
Respuesta
La regresión binomial es cualquier tipo de GLM que usa una relación binomial media-varianza donde la varianza está dada por $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $. En la regresión logística, $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $ con la función logit que se dice que es una función de «enlace». Sin embargo, se puede definir una clase general de modelos de regresión binomial con cualquier tipo de función de enlace, incluso funciones que generen un rango fuera de $ [0,1] $. Por ejemplo, la regresión probit toma un vínculo del CDF normal inverso, la regresión de riesgo relativo toma como vínculo la función de registro y los modelos de riesgo aditivo toman el modelo de vínculo de identidad.