Wenn ein Mehrfachregressionsmodell in R ausgeführt wird, ist eine der Ausgaben ein Reststandardfehler von 0,0589 bei 95.161 Freiheitsgraden. Ich weiß, dass die 95.161 Freiheitsgrade durch die Differenz zwischen der Anzahl der Beobachtungen in meiner Stichprobe und der Anzahl der Variablen in meinem Modell gegeben sind. Was ist der verbleibende Standardfehler?
Kommentare
- Diese Frage und ihre Antworten könnten hilfreich sein: Warum sagen wir Reststandardfehler?
- Eine kurze Frage: Ist " Reststandardfehler " dasselbe wie " Reststandardabweichung "? Gelman und Hill (S.41, 2007) scheinen sie austauschbar zu verwenden.
Antwort
Eine angepasste Regression Das Modell verwendet die Parameter, um Punktschätzungsvorhersagen zu generieren, die das Mittel für beobachtete Antworten sind, wenn Sie die Studie unendlich oft mit denselben $ X $ -Werten replizieren (und wenn das lineare Modell wahr ist). Die Differenz zwischen diesen vorhergesagten Werten und denjenigen, die zur Anpassung an das Modell verwendet werden, wird als „Residuen“ bezeichnet, die beim Replizieren des Datenerfassungsprozesses Eigenschaften von Zufallsvariablen mit 0 Mitteln aufweisen.
Die beobachteten Residuen werden dann verwendet, um anschließend die Variabilität dieser Werte abzuschätzen und die Stichprobenverteilung der Parameter abzuschätzen. Wenn der verbleibende Standardfehler genau 0 ist, passt das Modell perfekt zu den Daten (wahrscheinlich aufgrund von Überanpassung). Wenn nicht gezeigt werden kann, dass sich der verbleibende Standardfehler signifikant von der Variabilität der bedingungslosen Reaktion unterscheidet, gibt es kaum Anhaltspunkte dafür, dass das lineare Modell eine Vorhersagefähigkeit besitzt.
Kommentare
- Dies wurde möglicherweise schon einmal beantwortet. Überprüfen Sie, ob diese Frage die Antworten enthält, die Sie benötigen. [Interpretation der Ausgabe von R ' s lm ()] [1] [1]: stats.stackexchange.com/questions/5135 / …
Antwort
Sagen wir haben die folgende ANOVA-Tabelle (angepasst aus Rs Befehl example(aov)
):
Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57
Wenn Sie die Summe teilen von Quadraten aus einer beliebigen Variationsquelle (Modell oder Residuen) nach ihren jeweiligen Freiheitsgraden erhalten Sie das mittlere Quadrat. Insbesondere für die Residuen:
$$ \ frac {306.3} {4} = 76.575 \ ca. 76,57 $$
76,57 ist also das mittlere Quadrat der Residuen, dh die Menge der Residuenvariation (nach Anwendung des Modells) Ihrer Antwortvariablen.
Die verbleibender Standardfehler , nach dem Sie gefragt haben, ist nichts anderes als die positive Quadratwurzel von der mittlere quadratische Fehler . In meinem Beispiel wäre der verbleibende Standardfehler gleich $ \ sqrt {76.57} $ oder ungefähr 8.75. R würde diese Informationen als „8,75 bei 4 Freiheitsgraden“ ausgeben.
Kommentare
- Ich habe die Antwort von @AdamO hochgestimmt, weil als Person, die Regression am häufigsten direkt verwendet, war diese Antwort für mich am einfachsten. Ich schätze diese Antwort jedoch, da sie die Beziehung zwischen ANOVA und linearer Regression in Bezug auf Notation, Konzeption und Methodik veranschaulicht.
Antwort
In der Regel sieht ein Regressionsmodell folgendermaßen aus: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ wobei $ \ epsilon $ ein von $ X $ unabhängiger Fehlerbegriff ist.
Wenn $ \ beta_ {0} $ und $ \ beta_ {1} $ bekannt sind, können wir Y aufgrund von $ \ epsilon $ mit X immer noch nicht perfekt vorhersagen. Daher verwenden wir RSE als Beurteilungswert für die Standardabweichung von $ \ epsilon $.
RSE wird in „Einführung in das statistische Lernen“ ziemlich deutlich erklärt.
Kommentare
- Dies sollte die akzeptierte Antwort sein. RSE ist nur eine Schätzung der Standardabweichung von $ \ epsilon $, d. H. Des Residuums. Es ' wird auch als Reststandardabweichung (RSD) bezeichnet und kann als $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} definiert werden $ (siehe z. B. ISL Seite 66).
- Für alle, die das Epub von ISL lesen, finden Sie " Seite 66 " mit Strg-f " verbleibender Standardfehler. " (Epub-Dateien haben keine echten Seitenzahlen).
Antwort
Der verbleibende Standardfehler ist $ \ sqrt {MSE} $ . Der $ MSE $ ist ein unvoreingenommener Schätzer von $ \ sigma ^ 2 $ , wobei $ \ sigma ^ 2 = Var (y | x) $ .
Um die Antwort von @Silverfish und @Waldir Leoncio klarer zu machen.
Im Folgenden wird eine Zusammenfassung aller Definitionen angezeigt. Diese Begriffe haben Sie immer verwirrt. Fügen Sie sie hier ein, anstatt sie zur besseren Formatierung als Kommentar zu verwenden.
Anova-Tabelle von SLR / Simple Linear Regression (DF unterscheidet sich für multiple Regression):
Quelle | DF | Summe Sq | Mittelwert Sq | F-Wert |
---|---|---|---|---|
Regression | $ 1 $ | $ SSR $ | $ MSR = \ frac {SSR} {1} $ | $ \ frac {MSR} {MSE} $ |
Rest | $ n – 2 $ | $ SSE $ | $ MSE = \ frac {SSE} {n – 2} $ | |
Gesamt | |
$ SST $ |