Jeg har altid tænkt på logistisk regression som blot et specielt tilfælde af binomial regression, hvor linkfunktionen er den logistiske funktion (i stedet for f.eks. en probit funktion).
Efter at have læst svarene på et andet spørgsmål havde jeg dog, det lyder som om jeg kan være forvirret, og der er en forskel mellem logistisk regression og binomial regression med et logistisk link.
Hvad er forskellen?
Svar
Logistisk regression er en binomial regression med “logistisk” linkfunktion:
$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$
Selvom jeg også synes, logistisk regression normalt anvendes til binomiale proportioner snarere end binomialtælling.
Kommentarer
- Hvad mener du med, at logistisk regression normalt anvendes til proportioner snarere end tællinger? Antag, at jeg ' forsøger at forudsige, om folk vil deltage i en fest eller ej, og at jeg for en bestemt fest ved, at 9 personer deltog og 1 ikke – mener du, at logistisk regression tager dette som et træningseksempel (dvs. denne part havde en succesrate på 0,9), mens binomial regression med et link ville tage dette som 10 træningseksempler (9 succeser, 1 fiasko)?
- @ raehtin – i begge tilfælde ville det være $ 1 $ sample / training case med henholdsvis $ (n_i, f_i) = (10,0.9) $ og $ (n_i, x_i) = (10,9) $. Forskellen er formen for middel- og variansfunktionerne. For binomial betyder middel $ \ mu_i = n_ip_i $, det kanoniale link er nu $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ højre) $ (også kaldet " naturlig parameter "), og variansfunktionen er $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ med spredningsparameter $ \ phi_i = 1 $. For logistik har vi middel $ \ mu_i = p_i $, ovenstående link, variansfunktion af $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ og spredning lig med $ \ phi_i = \ frac {1} {n_i } $.
- Med logistik adskilles $ n_i $ fra middel- og variansfunktionerne, så det lettere kan tages i betragtning via vægtning
- Ah, fik det, jeg tænk jeg kan se. Betyder dette, at de producerer ækvivalente resultater (simpelthen nået fra en anden måde)?
- @raegtin – det tror jeg. GLM-vægte, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $, er ens i begge tilfælde, og linkfunktionen producerer den samme logit-værdi. Så længe X-variablerne også er de samme, skal det give de samme resultater.
Svar
Binomial regression er enhver type GLM, der bruger et binomialt middelvariansforhold, hvor variansen er angivet af $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $. I logistisk regression er $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $ med logit-funktionen siges at være en “link” -funktion. Imidlertid kan en generel klasse af binomiale regressionsmodeller defineres med en hvilken som helst type linkfunktion, selv funktioner, der udsender et område uden for $ [0,1] $. For eksempel tager probit-regression et link til den inverse normale CDF, relativ risikoreduktion tager et link til logfunktionen, og additive risikomodeller tager identitetslink-modellen.