Jai toujours pensé à la régression logistique comme simplement un cas particulier de régression binomiale où la fonction de lien est la fonction logistique (au lieu, disons, dun probit fonction).
En lisant les réponses à une autre question que jai eue, cependant, il semble que je pourrais être confus, et il y a un différence entre la régression logistique et la régression binomiale avec un lien logistique.
Quelle est la différence?
Réponse
La régression logistique est une régression binomiale avec la fonction de lien « logistique »:
$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$
Bien que je pense aussi que la régression logistique est généralement appliquée aux proportions binomiales plutôt quaux nombres binomiaux.
Commentaires
- Quentendez-vous par la régression logistique généralement appliquée aux proportions plutôt quaux nombres? Supposons que jessaie ' de prédire si les gens vont assister à une fête ou non, et que pour une fête en particulier, je sais que 9 personnes ont participé et 1 pas – voulez-vous dire la régression logistique prend cela comme un exemple dentraînement (cest-à-dire que cette partie a eu un taux de réussite de 0,9), tandis que la régression binomiale avec un lien prendrait cela comme 10 exemples dentraînement (9 succès, 1 échec)?
- @ raehtin – dans les deux cas, ce serait $ 1 $ exemple / cas de formation, avec $ (n_i, f_i) = (10,0.9) $ et $ (n_i, x_i) = (10,9) $ respectivement. La différence réside dans la forme des fonctions de moyenne et de variance. Pour binomial, la moyenne est $ \ mu_i = n_ip_i $, le lien canoncial est maintenant $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ right) $ (également appelé " paramètre naturel "), et la fonction de variance est $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ avec paramètre de dispersion $ \ phi_i = 1 $. Pour la logistique, nous avons la moyenne $ \ mu_i = p_i $, le lien ci-dessus, la fonction de variance de $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ et la dispersion égale à $ \ phi_i = \ frac {1} {n_i } $.
- Avec la logistique, le $ n_i $ est séparé des fonctions de moyenne et de variance, il peut donc être plus facilement pris en compte via la pondération
- Ah, compris, je pense que je vois. Cela signifie-t-il quils produisent des résultats équivalents (obtenus simplement dune manière différente)?
- @raegtin – Je pense que oui. Les poids GLM, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $, sont égaux dans les deux cas et la fonction de liaison produit la même valeur logit. Donc, tant que les variables X sont également les mêmes, cela devrait donner les mêmes résultats.
Réponse
La régression binomiale est tout type de GLM utilisant une relation binomiale moyenne-variance où la variance est donnée par $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $. En régression logistique, le $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $ avec la fonction logit dite fonction de « lien ». Cependant, une classe générale de modèles de régression binomiale peut être définie avec nimporte quel type de fonction de lien, même des fonctions produisant une plage en dehors de $ [0,1] $. Par exemple, la régression probit prend un lien du CDF normal inverse, la régression du risque relatif prend comme lien la fonction log, et les modèles de risque additif prennent le modèle du lien didentité.