Olen aina ajatellut logistista regressiota yksinkertaisesti binomisen regressioon erikoistapauksena, jossa linkkitoiminto on logistinen funktio (esimerkiksi probitin sijasta)
Lukemalla vastaukset toiseen kysymykseen , minulla on kuitenkin, kuulostaa siltä, että olen hämmentynyt, ja siellä on ero logistisen regression ja binomisen regression välillä logistisella linkillä.
Mitä eroa on?
Vastaa
Logistinen regressio on binomi-regressio, jossa on ”logistinen” linkkitoiminto:
$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X \ beta $$
Vaikka myös logistista regressiota mielestäni käytetään yleensä binomien mittasuhteisiin binomiomäärien sijaan.
Kommentit
- Mitä tarkoitat sillä, että logistista regressiota käytetään yleensä mittasuhteisiin eikä lukuihin? Oletetaan, että ' yritän ennustaa, osallistuvatko ihmiset juhliin vai ei, ja tietyn puolueen osalta tiedän, että 9 henkilöä osallistui ja yksi ei – tarkoitatteko sitä logistinen regressio pitää tätä yhtenä harjoitteluesimerkkinä (ts. osapuolen onnistumisprosentti oli 0,9), kun taas binominen regressio linkin kanssa ottaisi tämän 10 harjoitusesimerkiksi (9 onnistumista, 1 epäonnistuminen)?
- @ raehtin – molemmissa tapauksissa se olisi $ 1 $ näyte / koulutus tapaus, jossa $ (n_i, f_i) = (10,0,9) $ ja $ (n_i, x_i) = (10,9) $. Ero on keskiarvo- ja varianssifunktioiden muoto. Binomialle keskiarvo on $ \ mu_i = n_ip_i $, kanoniaalinen linkki on nyt $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ right) $ (kutsutaan myös nimellä " luonnollinen parametri "), ja varianssitoiminto on $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ dispersioparametri $ \ phi_i = 1 $. Logistiikalle tarkoitamme $ \ mu_i = p_i $, yllä olevaa linkkiä, varianssifunktiota $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ ja hajonta yhtä suuri kuin $ \ phi_i = \ frac {1} {n_i } $.
- Logistiikan avulla $ n_i $ erotetaan keskiarvo- ja varianssitoiminnoista, joten se voidaan ottaa helpommin huomioon painotuksella
- Ah, ymmärrän, minä ajatella näen. Tarkoittaako tämä, että ne tuottavat vastaavia tuloksia (yksinkertaisesti saavutettu eri tavalla)?
- @raegtin – luulen niin. GLM-painot, $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $, ovat samat molemmissa tapauksissa, ja linkkitoiminto tuottaa saman logit-arvon. Niin kauan kuin X-muuttujat ovat myös samat, sen pitäisi antaa samat tulokset.
Vastaa
Binomiaalinen regressio on minkä tahansa tyyppinen GLM, joka käyttää binomista keskiarvo-varianssisuhdetta, jossa varianssin antaa $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $. Logistisessa regressiossa $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})})) $ logit-funktiolla, jonka sanotaan olevan ”linkki” -funktio. Yleinen binomiregressiomallien luokka voidaan kuitenkin määrittää kaikentyyppisillä linkkitoiminnoilla, jopa funktioilla, jotka tuottavat alueen $ [0,1] $: n ulkopuolelle. Esimerkiksi probit-regressio ottaa linkin normaalin käänteisestä CDF: stä, suhteellisen riskin regressio linkkinä lokifunktion ja additiiviset riskimallit ottavat identiteettilinkin mallin.