Når du kjører en multippel regresjonsmodell i R, er en av utgangene en gjenværende standardfeil på 0,0589 på 95,161 frihetsgrader. Jeg vet at 95.161 frihetsgrader er gitt av forskjellen mellom antall observasjoner i utvalget mitt og antall variabler i modellen min. Hva er den gjenværende standardfeilen?
Kommentarer
- Dette spørsmålet og svarene kan hjelpe: Hvorfor sier vi restfeil?
- Et raskt spørsmål: Er " restfeil " det samme som " reststandardavvik "? Gelman og Hill (s.41, 2007) ser ut til å bruke dem om hverandre.
Svar
En tilpasset regresjon modellen bruker parametrene til å generere spådommer forutsigelser som er middel for observerte svar hvis du skulle replikere studien med de samme $ X $ -verdiene et uendelig antall ganger (og når den lineære modellen er sann). Forskjellen mellom disse forutsagte verdiene og de som brukes for å passe modellen kalles «residualer» som, når de replikerer datainnsamlingsprosessen, har egenskaper til tilfeldige variabler med 0 betyr.
De observerte restene brukes deretter til å estimere variabiliteten i disse verdiene og til å estimere samplingsfordelingen av parametrene. Når den gjenværende standardfeilen er nøyaktig 0, passer modellen perfekt til dataene (sannsynligvis på grunn av overmontering). Hvis den gjenværende standardfeilen ikke kan vises å være signifikant forskjellig fra variabiliteten i den ubetingede responsen, er det lite som tyder på at den lineære modellen har noen prediktiv evne.
Kommentarer
- Dette kan ha blitt besvart før. Se om dette spørsmålet gir svarene du trenger. [Tolkning av R ' s lm () output] [1] [1]: stats.stackexchange.com/questions/5135 / …
Svar
Si oss ha følgende ANOVA-tabell (tilpasset R «s example(aov)
kommando):
Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57
Hvis du deler summen av firkanter fra en hvilken som helst variasjonskilde (modell eller restprodukter) etter sine respektive frihetsgrader, får du gjennomsnittlig kvadrat. Spesielt for restene:
$$ \ frac {306.3} {4} = 76.575 \ ca 76,57 $$
Så 76,57 er middelkvadratet for restene, dvs. mengden rest (etter bruk av modellen) på variabelen din.
gjenværende standardfeil du har spurt om, er ikke noe mer enn positive kvadratrot av den gjennomsnittlige kvadratfeilen . I mitt eksempel vil den gjenværende standardfeilen være lik $ \ sqrt {76.57} $, eller omtrent 8,75. R ville sende ut denne informasjonen som «8,75 på 4 frihetsgrader».
Kommentarer
- Jeg oppstemte svaret fra @AdamO fordi som en person som ofte bruker regresjon direkte, var det svaret det enkleste for meg. Imidlertid setter jeg pris på dette svaret ettersom det illustrerer det notasjonelle / konseptuelle / metodiske forholdet mellom ANOVA og lineær regresjon.
Svar
Vanligvis vil en regresjonsmodell se slik ut: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ der $ \ epsilon $ er et feiluttrykk uavhengig av $ X $.
Hvis $ \ beta_ {0} $ og $ \ beta_ {1} $ er kjent, kan vi fortsatt ikke perfekt forutsi Y ved å bruke X på grunn av $ \ epsilon $. Derfor bruker vi RSE som en vurderingsverdi for standardavviket på $ \ epsilon $.
RSE forklares ganske tydelig i «Introduksjon til statistisk læring».
Kommentarer
- Dette bør være det aksepterte svaret. RSE er bare et estimat av standardavviket på $ \ epsilon $, dvs. det gjenværende. Det ' er også kjent som gjenværende standardavvik (RSD), og det kan defineres som $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (f.eks. se ISL side 66).
- For alle som leser epuben til ISL, kan du finne " side 66 " med ctrl-f " gjenværende standardfeil. " (Epub-filer har ikke sanne sidetall).
Svar
gjenværende standardfeil er $ \ sqrt {MSE} $ . $ MSE $ er en upartisk estimator av $ \ sigma ^ 2 $ , der $ \ sigma ^ 2 = Var (y | x) $ .
For å gjøre det tydeligere på svaret fra @Silverfish og @Waldir Leoncio.
Et sammendrag av alle definisjoner ble vist nedenfor. Ble alltid forvirret av disse vilkårene, legg den her i stedet for å gjøre den som en kommentar for bedre formatering.
Anova-tabell med SLR / Simple Linear Regresjon (DF er forskjellig for flere regresjoner):
Source | DF | Sum Sq | Mean Sq | F-verdi |
---|---|---|---|---|
Regresjon | $ 1 $ | $ SSR $ | $ MSR = \ frac {SSR} {1} $ | $ \ frac {MSR} {MSE} $ |
Residual | $ n – 2 $ | $ SSE $ | $ MSE = \ frac {SSE} {n – 2} $ | |
Totalt | |
$ SST $ |