Co to jest szczątkowy błąd standardowy?

Podczas uruchamiania modelu regresji wielorakiej w R jednym z wyników jest szczątkowy błąd standardowy wynoszący 0,0589 na 95,161 stopniach swobody. Wiem, że 95161 stopni swobody jest wynikiem różnicy między liczbą obserwacji w mojej próbie a liczbą zmiennych w moim modelu. Co to jest szczątkowy błąd standardowy?

Komentarze

Odpowiedź

Dopasowana regresja model wykorzystuje parametry do generowania prognoz punktowych, które są średnimi zaobserwowanych odpowiedzi, gdybyś miał powtórzyć badanie z tymi samymi wartościami $ X $ nieskończoną liczbę razy (i gdy model liniowy jest prawdziwy). Różnica między tymi przewidywanymi wartościami a wartościami stosowanymi do dopasowania modelu nazywa się „resztami”, które podczas replikacji procesu zbierania danych mają właściwości zmiennych losowych z zerowymi średnimi.

Obserwowane reszty są następnie wykorzystywane do późniejszego oszacowania zmienności tych wartości i oszacowania rozkładu próbkowania parametrów. Gdy resztkowy błąd standardowy wynosi dokładnie 0, model idealnie pasuje do danych (prawdopodobnie z powodu nadmiernego dopasowania). Jeśli nie można wykazać, że rezydualny błąd standardowy znacząco różni się od zmienności odpowiedzi bezwarunkowej, istnieje niewiele dowodów sugerujących, że model liniowy ma jakąkolwiek zdolność predykcyjną.

Komentarze

Odpowiedź

Powiedz, że mieć następującą tabelę ANOVA (dostosowaną z polecenia R „s example(aov)):

 Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57 

Jeśli podzielisz sumę kwadratów z dowolnego źródła zmienności (modelu lub reszt) przez odpowiednie stopnie swobody, otrzymujesz średni kwadrat. Szczególnie dla reszt:

$$ \ frac {306.3} {4} = 76,575 \ około 76,57 $$

A więc 76,57 to średni kwadrat reszt, tj. kwota reszty (po zastosowaniu modelu) zmiany zmiennej odpowiedzi.

resztkowy błąd standardowy , o który pytałeś, to nic innego jak dodatni pierwiastek kwadratowy z średni kwadratowy błąd . W moim przykładzie resztkowy błąd standardowy byłby równy $ \ sqrt {76,57} $, czyli około 8,75. R wypisze tę informację jako „8,75 na 4 stopniach swobody”.

Komentarze

  • Głosowałem za odpowiedzią @AdamO, ponieważ jako osoba, która najczęściej używa regresji bezpośrednio, ta odpowiedź była dla mnie najprostsza. Doceniam jednak tę odpowiedź, ponieważ ilustruje ona notacyjną / koncepcyjną / metodologiczną zależność między ANOVA a regresją liniową.

Odpowiedź

Zazwyczaj model regresji wygląda następująco: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$, gdzie $ \ epsilon $ to termin błędu niezależny od $ X $.

Jeśli znane są $ \ beta_ {0} $ i $ \ beta_ {1} $, nadal nie możemy doskonale przewidzieć Y używając X ze względu na $ \ epsilon $. Dlatego używamy RSE jako wartości osądu odchylenia standardowego $ \ epsilon $.

RSE jest dość jasno wyjaśnione we „Wstępie do uczenia się statystycznego”.

Komentarze

  • To powinna być zaakceptowana odpowiedź. RSE to tylko oszacowanie odchylenia standardowego $ \ epsilon $, czyli reszty. Jest ono ' znane również jako rezydualne odchylenie standardowe (RSD) i można je zdefiniować jako $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (np. zobacz ISL strona 66).
  • Każdy, kto czyta epub ISL, może znaleźć " stronę 66 " z ctrl-f " resztkowy błąd standardowy. " (pliki Epub nie mają prawdziwych numerów stron).

Odpowiedź

resztkowy błąd standardowy to $ \ sqrt {MSE} $ . $ MSE $ jest bezstronnym szacunkiem $ \ sigma ^ 2 $ , gdzie $ \ sigma ^ 2 = Var (y | x) $ .

Aby wyjaśnić odpowiedź udzieloną przez @Silverfish i @Waldir Leoncio.
Podsumowanie wszystkich definicji pokazano poniżej. Zawsze byłem zdezorientowany tymi terminami, umieść je tutaj zamiast robić to jako komentarz dla lepszego formatowania.

Tabela Anova SLR / Simple Linear Regresja (DF różni się w przypadku regresji wielokrotnej):

Źródło DF Sum Sq Średnia kwadrat F value
Regresja 1 USD $ SSR $ $ MSR = \ frac {SSR} {1} $ $ \ frac {MSR} {MSE} $
Pozostałe $ n – 2 $ $ SSE $ $ MSE = \ frac {SSE} {n – 2} $
Razem $ n – 1 $ $ SST $

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *