Hva er gjenværende standardfeil?

Når du kjører en multippel regresjonsmodell i R, er en av utgangene en gjenværende standardfeil på 0,0589 på 95,161 frihetsgrader. Jeg vet at 95.161 frihetsgrader er gitt av forskjellen mellom antall observasjoner i utvalget mitt og antall variabler i modellen min. Hva er den gjenværende standardfeilen?

Kommentarer

  • Dette spørsmålet og svarene kan hjelpe: Hvorfor sier vi restfeil?
  • Et raskt spørsmål: Er " restfeil " det samme som " reststandardavvik "? Gelman og Hill (s.41, 2007) ser ut til å bruke dem om hverandre.

Svar

En tilpasset regresjon modellen bruker parametrene til å generere spådommer forutsigelser som er middel for observerte svar hvis du skulle replikere studien med de samme $ X $ -verdiene et uendelig antall ganger (og når den lineære modellen er sann). Forskjellen mellom disse forutsagte verdiene og de som brukes for å passe modellen kalles «residualer» som, når de replikerer datainnsamlingsprosessen, har egenskaper til tilfeldige variabler med 0 betyr.

De observerte restene brukes deretter til å estimere variabiliteten i disse verdiene og til å estimere samplingsfordelingen av parametrene. Når den gjenværende standardfeilen er nøyaktig 0, passer modellen perfekt til dataene (sannsynligvis på grunn av overmontering). Hvis den gjenværende standardfeilen ikke kan vises å være signifikant forskjellig fra variabiliteten i den ubetingede responsen, er det lite som tyder på at den lineære modellen har noen prediktiv evne.

Kommentarer

Svar

Si oss ha følgende ANOVA-tabell (tilpasset R «s example(aov) kommando):

 Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57 

Hvis du deler summen av firkanter fra en hvilken som helst variasjonskilde (modell eller restprodukter) etter sine respektive frihetsgrader, får du gjennomsnittlig kvadrat. Spesielt for restene:

$$ \ frac {306.3} {4} = 76.575 \ ca 76,57 $$

Så 76,57 er middelkvadratet for restene, dvs. mengden rest (etter bruk av modellen) på variabelen din.

gjenværende standardfeil du har spurt om, er ikke noe mer enn positive kvadratrot av den gjennomsnittlige kvadratfeilen . I mitt eksempel vil den gjenværende standardfeilen være lik $ \ sqrt {76.57} $, eller omtrent 8,75. R ville sende ut denne informasjonen som «8,75 på 4 frihetsgrader».

Kommentarer

  • Jeg oppstemte svaret fra @AdamO fordi som en person som ofte bruker regresjon direkte, var det svaret det enkleste for meg. Imidlertid setter jeg pris på dette svaret ettersom det illustrerer det notasjonelle / konseptuelle / metodiske forholdet mellom ANOVA og lineær regresjon.

Svar

Vanligvis vil en regresjonsmodell se slik ut: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ der $ \ epsilon $ er et feiluttrykk uavhengig av $ X $.

Hvis $ \ beta_ {0} $ og $ \ beta_ {1} $ er kjent, kan vi fortsatt ikke perfekt forutsi Y ved å bruke X på grunn av $ \ epsilon $. Derfor bruker vi RSE som en vurderingsverdi for standardavviket på $ \ epsilon $.

RSE forklares ganske tydelig i «Introduksjon til statistisk læring».

Kommentarer

  • Dette bør være det aksepterte svaret. RSE er bare et estimat av standardavviket på $ \ epsilon $, dvs. det gjenværende. Det ' er også kjent som gjenværende standardavvik (RSD), og det kan defineres som $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (f.eks. se ISL side 66).
  • For alle som leser epuben til ISL, kan du finne " side 66 " med ctrl-f " gjenværende standardfeil. " (Epub-filer har ikke sanne sidetall).

Svar

gjenværende standardfeil er $ \ sqrt {MSE} $ . $ MSE $ er en upartisk estimator av $ \ sigma ^ 2 $ , der $ \ sigma ^ 2 = Var (y | x) $ .

For å gjøre det tydeligere på svaret fra @Silverfish og @Waldir Leoncio.
Et sammendrag av alle definisjoner ble vist nedenfor. Ble alltid forvirret av disse vilkårene, legg den her i stedet for å gjøre den som en kommentar for bedre formatering.

Anova-tabell med SLR / Simple Linear Regresjon (DF er forskjellig for flere regresjoner):

Source DF Sum Sq Mean Sq F-verdi
Regresjon $ 1 $ $ SSR $ $ MSR = \ frac {SSR} {1} $ $ \ frac {MSR} {MSE} $
Residual $ n – 2 $ $ SSE $ $ MSE = \ frac {SSE} {n – 2} $
Totalt $ n – 1 $ $ SST $

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *