Ho sempre pensato alla regressione logistica semplicemente come un caso speciale di regressione binomiale in cui la funzione di collegamento è la funzione logistica (invece di, diciamo, un probit funzione).
Dopo aver letto le risposte su unaltra domanda , ho avuto, tuttavia, sembra che potrei essere confuso, e cè un differenza tra regressione logistica e regressione binomiale con un collegamento logistico.
Qual è la differenza?
Risposta
La regressione logistica è una regressione binomiale con la funzione di collegamento “logistico”:
$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$
Anche se penso anche che la regressione logistica sia solitamente applicata a proporzioni binomiali piuttosto che a conteggi binomiali.
Commenti
- Cosa intendi per regressione logistica solitamente applicata alle proporzioni piuttosto che ai conteggi? Supponiamo che ' stia cercando di prevedere se le persone parteciperanno o meno a una festa e che per una festa in particolare so che 9 persone hanno partecipato e 1 no – intendi questo la regressione logistica prende questo come un esempio di addestramento (cioè, questa parte ha avuto una percentuale di successo di 0,9), mentre la regressione binomiale con un collegamento lo considera come 10 esempi di addestramento (9 successi, 1 fallimento)?
- @ raehtin – in entrambi i casi sarebbe $ 1 $ sample / training case, con $ (n_i, f_i) = (10,0.9) $ e $ (n_i, x_i) = (10,9) $ rispettivamente. La differenza è la forma delle funzioni media e varianza. Per binomiale, la media è $ \ mu_i = n_ip_i $, il collegamento canonciale ora è $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ right) $ (chiamato anche " parametro naturale ") e la funzione di varianza è $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ con parametro di dispersione $ \ phi_i = 1 $. Per la logistica si intende $ \ mu_i = p_i $, il collegamento sopra, funzione di varianza di $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ e dispersione pari a $ \ phi_i = \ frac {1} {n_i } $.
- Con la logistica, $ n_i $ è separato dalle funzioni di media e varianza, quindi può essere preso in considerazione più facilmente tramite la ponderazione
- Ah, capito, io penso di vedere. Questo significa che producono risultati equivalenti (semplicemente ottenuti da un modo diverso)?
- @raegtin – Penso di sì. I pesi GLM, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $, sono uguali in entrambi i casi e la funzione link produce lo stesso valore logit. Quindi, a patto che anche le variabili X siano le stesse, dovrebbe dare gli stessi risultati.
Risposta
La regressione binomiale è qualsiasi tipo di GLM che utilizza una relazione binomiale media-varianza in cui la varianza è data da $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $. Nella regressione logistica $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $ con la funzione logit detta essere una funzione di “collegamento”. Tuttavia una classe generale di modelli di regressione binomiale può essere definita con qualsiasi tipo di funzione di collegamento, anche funzioni che generano un intervallo al di fuori di $ [0,1] $. Ad esempio, la regressione probit accetta un collegamento della CDF normale inversa, la regressione del rischio relativo prende come collegamento la funzione di log e i modelli di rischio additivo prendono il modello del collegamento identità.