Jag har alltid tänkt på logistisk regression som helt enkelt ett speciellt fall av binomiell regression där länkfunktionen är den logistiska funktionen (istället för, säg, en probit funktion).
Efter att ha läst svar på en annan fråga hade jag dock, det låter som om jag kan vara förvirrad och det finns en skillnad mellan logistisk regression och binomial regression med en logistisk länk.
Vad är skillnaden?
Svar
Logistisk regression är en binomiell regression med länkfunktionen ”logistisk”:
$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$
Även om jag också tror att logistisk regression vanligtvis tillämpas på binomiala proportioner snarare än binomialtal.
Kommentarer
- Vad menar du med att logistisk regression vanligtvis tillämpas på proportioner snarare än på räkningar? Antag att jag ' försöker förutsäga om folk kommer att delta i en fest eller inte, och att för ett visst parti vet jag att 9 personer deltog och 1 inte – menar du att logistisk regression tar detta som ett träningsexempel (dvs. det här partiet hade en framgångsgrad på 0,9), medan binomiell regression med en länk skulle ta detta som 10 träningsexempel (9 framgångar, 1 misslyckande)?
- @ raehtin – i båda fallen skulle det vara $ 1 $ sampel / träningsfall, med $ (n_i, f_i) = (10,0,9) $ respektive $ (n_i, x_i) = (10,9) $. Skillnaden är formen av medel- och variansfunktionerna. För binomial är medelvärdet $ \ mu_i = n_ip_i $, den kanoniala länken är nu $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ höger) $ (även kallad " naturlig parameter "), och variansfunktionen är $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ med dispersionsparameter $ \ phi_i = 1 $. För logistik har vi betyder $ \ mu_i = p_i $, ovanstående länk, variansfunktion av $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ och dispersion lika med $ \ phi_i = \ frac {1} {n_i } $.
- Med logistik är $ n_i $ åtskild från medel- och variansfunktionerna, så kan lättare tas med i beräkningen via viktning
- Ah, förstår jag tänk Jag förstår. Betyder det att de ger likvärdiga resultat (helt enkelt nås från ett annat sätt)?
- @raegtin – Jag tror det. GLM-vikterna, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $, är lika i båda fallen, och länkfunktionen ger samma logitvärde. Så länge X-variablerna också är desamma, ska det ge samma resultat.
Svar
Binomiell regression är vilken typ av GLM som helst som använder ett binomialt medelvariansförhållande där variansen ges av $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $. I logistisk regression är $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $ med logit-funktionen sägs vara en ”länk” -funktion. Men en allmän klass av binomiala regressionsmodeller kan definieras med vilken typ av länkfunktion som helst, även funktioner som matar ut ett intervall utanför $ [0,1] $. Till exempel tar probit-regression en länk till den inverterade normala CDF, relativ riskregression tar som en länk loggfunktionen och additiva riskmodeller tar identitetslänkmodellen.