Podczas uruchamiania modelu regresji wielorakiej w R jednym z wyników jest szczątkowy błąd standardowy wynoszący 0,0589 na 95,161 stopniach swobody. Wiem, że 95161 stopni swobody jest wynikiem różnicy między liczbą obserwacji w mojej próbie a liczbą zmiennych w moim modelu. Co to jest szczątkowy błąd standardowy?
Komentarze
- To pytanie i odpowiedzi mogą pomóc: Dlaczego mówimy o resztowym błędzie standardowym?
- Szybkie pytanie: czy " resztkowy błąd standardowy " taki sam jak " resztkowe odchylenie standardowe "? Gelman i Hill (s. 41, 2007) wydają się używać ich zamiennie.
Odpowiedź
Dopasowana regresja model wykorzystuje parametry do generowania prognoz punktowych, które są średnimi zaobserwowanych odpowiedzi, gdybyś miał powtórzyć badanie z tymi samymi wartościami $ X $ nieskończoną liczbę razy (i gdy model liniowy jest prawdziwy). Różnica między tymi przewidywanymi wartościami a wartościami stosowanymi do dopasowania modelu nazywa się „resztami”, które podczas replikacji procesu zbierania danych mają właściwości zmiennych losowych z zerowymi średnimi.
Obserwowane reszty są następnie wykorzystywane do późniejszego oszacowania zmienności tych wartości i oszacowania rozkładu próbkowania parametrów. Gdy resztkowy błąd standardowy wynosi dokładnie 0, model idealnie pasuje do danych (prawdopodobnie z powodu nadmiernego dopasowania). Jeśli nie można wykazać, że rezydualny błąd standardowy znacząco różni się od zmienności odpowiedzi bezwarunkowej, istnieje niewiele dowodów sugerujących, że model liniowy ma jakąkolwiek zdolność predykcyjną.
Komentarze
- Na to mogło odpowiedzieć już wcześniej. Sprawdź, czy to pytanie zawiera odpowiedzi, których potrzebujesz. [Interpretacja wyjścia R ' s lm ()] [1] [1]: stats.stackexchange.com/questions/5135 / …
Odpowiedź
Powiedz, że mieć następującą tabelę ANOVA (dostosowaną z polecenia R „s example(aov)
):
Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57
Jeśli podzielisz sumę kwadratów z dowolnego źródła zmienności (modelu lub reszt) przez odpowiednie stopnie swobody, otrzymujesz średni kwadrat. Szczególnie dla reszt:
$$ \ frac {306.3} {4} = 76,575 \ około 76,57 $$
A więc 76,57 to średni kwadrat reszt, tj. kwota reszty (po zastosowaniu modelu) zmiany zmiennej odpowiedzi.
resztkowy błąd standardowy , o który pytałeś, to nic innego jak dodatni pierwiastek kwadratowy z średni kwadratowy błąd . W moim przykładzie resztkowy błąd standardowy byłby równy $ \ sqrt {76,57} $, czyli około 8,75. R wypisze tę informację jako „8,75 na 4 stopniach swobody”.
Komentarze
- Głosowałem za odpowiedzią @AdamO, ponieważ jako osoba, która najczęściej używa regresji bezpośrednio, ta odpowiedź była dla mnie najprostsza. Doceniam jednak tę odpowiedź, ponieważ ilustruje ona notacyjną / koncepcyjną / metodologiczną zależność między ANOVA a regresją liniową.
Odpowiedź
Zazwyczaj model regresji wygląda następująco: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$, gdzie $ \ epsilon $ to termin błędu niezależny od $ X $.
Jeśli znane są $ \ beta_ {0} $ i $ \ beta_ {1} $, nadal nie możemy doskonale przewidzieć Y używając X ze względu na $ \ epsilon $. Dlatego używamy RSE jako wartości osądu odchylenia standardowego $ \ epsilon $.
RSE jest dość jasno wyjaśnione we „Wstępie do uczenia się statystycznego”.
Komentarze
- To powinna być zaakceptowana odpowiedź. RSE to tylko oszacowanie odchylenia standardowego $ \ epsilon $, czyli reszty. Jest ono ' znane również jako rezydualne odchylenie standardowe (RSD) i można je zdefiniować jako $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (np. zobacz ISL strona 66).
- Każdy, kto czyta epub ISL, może znaleźć " stronę 66 " z ctrl-f " resztkowy błąd standardowy. " (pliki Epub nie mają prawdziwych numerów stron).
Odpowiedź
resztkowy błąd standardowy to $ \ sqrt {MSE} $ . $ MSE $ jest bezstronnym szacunkiem $ \ sigma ^ 2 $ , gdzie $ \ sigma ^ 2 = Var (y | x) $ .
Aby wyjaśnić odpowiedź udzieloną przez @Silverfish i @Waldir Leoncio.
Podsumowanie wszystkich definicji pokazano poniżej. Zawsze byłem zdezorientowany tymi terminami, umieść je tutaj zamiast robić to jako komentarz dla lepszego formatowania.
Tabela Anova SLR / Simple Linear Regresja (DF różni się w przypadku regresji wielokrotnej):
Źródło | DF | Sum Sq | Średnia kwadrat | F value |
---|---|---|---|---|
Regresja | 1 USD | $ SSR $ | $ MSR = \ frac {SSR} {1} $ | $ \ frac {MSR} {MSE} $ |
Pozostałe | $ n – 2 $ | $ SSE $ | $ MSE = \ frac {SSE} {n – 2} $ | |
Razem | |
$ SST $ |