Was ' ist der Unterschied zwischen binomialer Regression und logistischer Regression?

Ich habe die logistische Regression immer als einen speziellen Fall der binomialen Regression angesehen, bei dem die Verknüpfungsfunktion die logistische Funktion ist (anstelle von beispielsweise einem Probit) Funktion).

Beim Lesen der Antworten auf eine andere Frage hatte ich jedoch das Gefühl, dass ich verwirrt sein könnte, und es gibt eine Unterschied zwischen logistischer Regression und binomialer Regression mit einer logistischen Verknüpfung.

Was ist der Unterschied?

Antwort

Die logistische Regression ist eine binomiale Regression mit der Verknüpfungsfunktion „logistisch“:

$$ g (p) = \ log \ left (\ frac {p} {1-p} \ right) = X. \ beta $$

Obwohl ich denke, dass die logistische Regression normalerweise eher auf Binomialproportionen als auf Binomialzahlen angewendet wird.

Kommentare

  • Was verstehen Sie unter logistischer Regression, die normalerweise eher auf Proportionen als auf Zählungen angewendet wird? Angenommen, ich ' versuche vorherzusagen, ob Personen an einer Party teilnehmen werden oder nicht, und für eine bestimmte Party weiß ich, dass 9 Personen teilgenommen haben und 1 nicht – meinen Sie das? Die logistische Regression nimmt dies als ein Trainingsbeispiel (dh diese Partei hatte eine Erfolgsrate von 0,9), während die binomiale Regression mit einem Link dies als 10 Trainingsbeispiele (9 Erfolge, 1 Misserfolg) betrachten würde?
  • @ raehtin – in beiden Fällen wäre es $ 1 $ Probe / Trainingsfall mit $ (n_i, f_i) = (10,0,9) $ bzw. $ (n_i, x_i) = (10,9) $. Der Unterschied ist die Form der Mittelwert- und Varianzfunktionen. Für Binomial ist der Mittelwert $ \ mu_i = n_ip_i $, der kanonische Link ist jetzt $ \ log \ left (\ frac {\ mu_i} {n_i- \ mu_i} \ right) $ (auch als natürlicher Parameter ") und die Varianzfunktion ist $ V (\ mu_i) = \ frac {\ mu_i (n_i- \ mu_i)} {n_i} $ mit Dispersionsparameter $ \ phi_i = 1 $. Für die Logistik haben wir den Mittelwert $ \ mu_i = p_i $, den obigen Link, die Varianzfunktion von $ V (\ mu_i) = \ mu_i (1- \ mu_i) $ und die Dispersion gleich $ \ phi_i = \ frac {1} {n_i } $.
  • Bei der Logistik wird das $ n_i $ von den Mittelwert- und Varianzfunktionen getrennt, sodass es leichter durch Gewichtung berücksichtigt werden kann.
  • Ah, verstanden, ich denke ich verstehe. Bedeutet dies, dass sie gleichwertige Ergebnisse liefern (einfach auf eine andere Weise erzielt)?
  • @raegtin – ich denke schon. Die GLM-Gewichte $ w_ {i} ^ {2} = \ frac {1} {\ phi_i V (\ mu_i) [g ' (\ mu_i)] ^ {2} } $ sind in beiden Fällen gleich und die Link-Funktion erzeugt den gleichen Logit-Wert. Solange die X-Variablen auch gleich sind, sollten dieselben Ergebnisse erzielt werden.

Antwort

Binomiale Regression ist jede Art von GLM, die eine binomiale Mittelwert-Varianz-Beziehung verwendet, wobei die Varianz durch $ \ mbox {var} (Y) = \ hat {Y} (1- \ hat {Y}) $ gegeben ist. Bei der logistischen Regression ist $ \ hat {Y} = \ mbox {logit} ^ {- 1} (\ mathbf {X} \ hat {\ beta}) = 1 / (1- \ exp {(\ mathbf {X} \ hat {\ beta})}) $ mit der Logit-Funktion, die als „Link“ -Funktion bezeichnet wird. Eine allgemeine Klasse von binomialen Regressionsmodellen kann jedoch mit jeder Art von Verknüpfungsfunktion definiert werden, selbst mit Funktionen, die einen Bereich außerhalb von $ [0,1] $ ausgeben. Beispielsweise nimmt die Probit-Regression eine Verknüpfung mit der inversen normalen CDF, die relative Risikoregression die Verknüpfung der Protokollfunktion und additive Risikomodelle das Identitätsverknüpfungsmodell.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.