Eu sempre pensei na regressão logística simplesmente como um caso especial de regressão binomial onde a função de ligação é a função logística (em vez de, digamos, um probit função).
Ao ler as respostas para outra pergunta que eu tive, parece que estou confuso e há um diferença entre regressão logística e regressão binomial com um link logístico.
Qual é a diferença?
Resposta
A regressão logística é uma regressão binomial com a função de ligação “logística”:
$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$
Embora eu também ache que a regressão logística é geralmente aplicada a proporções binomiais em vez de contagens binomiais.
Comentários
- O que você quer dizer com regressão logística sendo geralmente aplicada a proporções em vez de contagens? Suponha que eu ' esteja tentando prever se as pessoas irão ou não a uma festa, e que, para uma festa em particular, eu sei que 9 pessoas compareceram e 1 não – você quer dizer que a regressão logística considera isso um exemplo de treinamento (ou seja, esta parte teve uma taxa de sucesso de 0,9), enquanto a regressão binomial com um link consideraria isso como 10 exemplos de treinamento (9 sucessos, 1 falha)?
- @ raehtin – em ambos os casos seria $ 1 $ amostra / caso de treinamento, com $ (n_i, f_i) = (10,0.9) $ e $ (n_i, x_i) = (10,9) $ respectivamente. A diferença é a forma das funções de média e variância. Para binomial, a média é $ \ mu_i = n_ip_i $, o link canoncial agora é $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ right) $ (também chamado de " parâmetro natural "), e a função de variância é $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ com parâmetro de dispersão $ \ phi_i = 1 $. Para logística, temos média $ \ mu_i = p_i $, o link acima, função de variância de $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ e dispersão igual a $ \ phi_i = \ frac {1} {n_i } $.
- Com a logística, o $ n_i $ é separado das funções de média e variância, então pode ser mais facilmente levado em consideração por meio de ponderação
- Ah, entendi, eu acho que entendo. Isso significa que eles produzem resultados equivalentes (simplesmente obtidos de uma maneira diferente)?
- @raegtin – acho que sim. Os pesos GLM, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $, são iguais em ambos os casos, e a função de link produz o mesmo valor logit. Portanto, contanto que as variáveis X também sejam as mesmas, deve dar os mesmos resultados.
Resposta
A regressão binomial é qualquer tipo de GLM usando uma relação de média-variância binomial onde a variância é dada por $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $. Na regressão logística, o $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $ com a função logit considerada uma função de “link”. No entanto, uma classe geral de modelos de regressão binomial pode ser definida com qualquer tipo de função de link, até mesmo funções que geram um intervalo fora de $ [0,1] $. Por exemplo, a regressão probit usa um link do CDF normal inverso, a regressão de risco relativo usa como link a função de log e os modelos de risco aditivo usam o modelo de link de identidade.