Wat is ' is het verschil tussen binominale regressie en logistische regressie?

Ik “heb logistieke regressie altijd beschouwd als een speciaal geval van binominale regressie, waarbij de linkfunctie de logistieke functie is (in plaats van bijvoorbeeld een probit functie).

Door het lezen van de antwoorden op een andere vraag die ik had, klinkt het alsof ik misschien in de war ben, en er is een verschil tussen logistische regressie en binominale regressie met een logistieke link.

Wat is het verschil?

Antwoord

Logistische regressie is een binominale regressie met de “logistische” linkfunctie:

$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$

Hoewel ik ook denk dat logistische regressie meestal wordt toegepast op binominale verhoudingen in plaats van binominale tellingen.

Opmerkingen

  • Wat bedoel je met logistische regressie die meestal wordt toegepast op verhoudingen in plaats van op tellingen? Stel dat ik ' m probeer te voorspellen of mensen een feest zullen bijwonen of niet, en dat ik voor een bepaald feest weet dat 9 mensen aanwezig waren en 1 niet – bedoel je dat logistische regressie neemt dit als een trainingsvoorbeeld (dwz, deze partij had een slagingspercentage van 0,9), terwijl binominale regressie met een link dit zou beschouwen als 10 trainingsvoorbeelden (9 successen, 1 mislukking)?
  • @ raehtin – in beide gevallen zou het $ 1 $ sample / training case zijn, met $ (n_i, f_i) = (10,0.9) $ en $ (n_i, x_i) = (10,9) $ respectievelijk. Het verschil is de vorm van de gemiddelde en variantie-functies. Voor binominaal is het gemiddelde $ \ mu_i = n_ip_i $, de canonciale link is nu $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ right) $ (ook wel de natuurlijke parameter "), en de variantie-functie is $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ met verspreidingsparameter $ \ phi_i = 1 $. Voor logistiek bedoelen we $ \ mu_i = p_i $, de bovenstaande link, variantie-functie van $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ en spreiding gelijk aan $ \ phi_i = \ frac {1} {n_i } $.
  • Met logistiek wordt de $ n_i $ gescheiden van de gemiddelde en variantie-functies, zodat er gemakkelijker rekening mee kan worden gehouden via weging.
  • Ah, snap je, ik denk ik begrijp het. Betekent dit dat ze gelijkwaardige resultaten opleveren (gewoon op een andere manier zijn verkregen)?
  • @raegtin – ik denk van wel. De GLM-gewichten, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $, zijn in beide gevallen gelijk, en de linkfunctie produceert dezelfde logitwaarde. Dus zolang de X-variabelen ook hetzelfde zijn, zou het dezelfde resultaten moeten geven.

Antwoord

Binominale regressie is elk type GLM dat gebruik maakt van een binominale gemiddelde-variantie-relatie waarbij de variantie wordt gegeven door $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $. Bij logistieke regressie is de $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $ met de logit-functie waarvan gezegd wordt dat het een “link” -functie is. Een algemene klasse van binominale regressiemodellen kan echter worden gedefinieerd met elk type linkfunctie, zelfs functies die een bereik hebben buiten $ [0,1] $. Probitregressie neemt bijvoorbeeld een link van de inverse normale CDF, relatieve risicoregressie neemt als link de logfunctie en additieve risicomodellen nemen het identiteitslinkmodel.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *