Zawsze myślałem o regresji logistycznej jako po prostu o specjalnym przypadku regresji dwumianowej, w której funkcja łączenia jest funkcją logistyczną (zamiast, powiedzmy, probit funkcji).
Po przeczytaniu odpowiedzi na inne pytanie . Wydawało mi się, że mogę być zdezorientowany i jest różnica między regresją logistyczną a regresją dwumianową z połączeniem logistycznym.
Jaka jest różnica?
Odpowiedź
Regresja logistyczna to regresja dwumianowa z „logistyczną” funkcją łączenia:
$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$
Chociaż uważam również, że regresja logistyczna jest zwykle stosowana do proporcji dwumianowych, a nie do zliczeń dwumianowych.
Komentarze
- Co masz na myśli, mówiąc, że regresja logistyczna jest zwykle stosowana do proporcji, a nie do liczebności? Załóżmy, że ' próbuję przewidzieć, czy ludzie wezmą udział w imprezie, czy nie, i że w przypadku określonej imprezy wiem, że było 9 osób, a 1 nie – czy masz na myśli to regresja logistyczna przyjmuje to jako jeden przykład szkolenia (tj. ta partia miała wskaźnik sukcesu 0,9), podczas gdy regresja dwumianowa z łączem potraktowałaby to jako 10 przykładów treningowych (9 sukcesów, 1 porażka)?
- @ raehtin – w obu przypadkach będzie to 1 $ próbka / przypadek szkoleniowy, przy czym odpowiednio $ (n_i, f_i) = (10,0.9) $ i $ (n_i, x_i) = (10,9) $. Różnica polega na postaci funkcji średniej i wariancji. Dla dwumianu, średnia to $ \ mu_i = n_ip_i $, łącze kanoniczne to teraz $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ right) $ (zwane także " naturalny parametr "), a funkcja wariancji to $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ z parametr dyspersji $ \ phi_i = 1 $. Dla logistyki mamy średnią $ \ mu_i = p_i $, powyższy link, funkcję wariancji $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ i dyspersję równą $ \ phi_i = \ frac {1} {n_i } $.
- W przypadku logistyki funkcja $ n_i $ jest oddzielona od funkcji średniej i wariancji, więc można ją łatwiej uwzględnić za pomocą ważenia.
- Ach, rozumiem, ja myślę widzę. Czy to oznacza, że dają równoważne wyniki (po prostu otrzymane w inny sposób)?
- @raegtin – tak mi się wydaje. Wagi GLM, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $, są równe w obu przypadkach, a funkcja link daje tę samą wartość logit. Tak długo, jak zmienne X są takie same, powinny dawać te same wyniki.
Odpowiedź
Regresja dwumianowa to dowolny typ GLM wykorzystujący dwumianową relację średnia-wariancja, w której wariancja jest określona przez $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $. W regresji logistycznej $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $ z funkcją logit, o której mówi się, że jest funkcją „łącza”. Jednak ogólną klasę modeli regresji dwumianowej można zdefiniować za pomocą dowolnego typu funkcji łączenia, nawet funkcji wyprowadzających zakres poza $ [0,1] $. Na przykład regresja probitowa przyjmuje łącze odwrotnego normalnego CDF, regresja względnego ryzyka przyjmuje jako łącze funkcję log, a modele addytywnego ryzyka przyjmują model łącza tożsamości.