Vad är återstående standardfel?

När du kör en multipel regressionsmodell i R är en av utgångarna ett återstående standardfel på 0,0589 vid 95 161 frihetsgrader. Jag vet att de 95.161 frihetsgraderna ges av skillnaden mellan antalet observationer i mitt urval och antalet variabler i min modell. Vad är det återstående standardfelet?

Kommentarer

Den här frågan och dess svar kan hjälpa: Varför säger vi kvarvarande standardfel?
En snabb fråga: Är " återstående standardfel " samma som " återstående standardavvikelse "? Gelman och Hill (s.41, 2007) verkar använda dem omväxlande.

Svar

En anpassad regression modellen använder parametrarna för att generera punktuppskattningsförutsägelser som är medel för observerade svar om du skulle replikera studien med samma $ X $ -värden ett oändligt antal gånger (och när den linjära modellen är sant). Skillnaden mellan dessa förutsagda värden och de som används för att passa modellen kallas ”restprodukter” som, när de replikerar datainsamlingsprocessen, har egenskaper för slumpmässiga variabler med 0-medel.

De observerade resterna används sedan för att sedan uppskatta variabiliteten i dessa värden och för att uppskatta samplingsfördelningen av parametrarna. När det återstående standardfelet är exakt 0 passar modellen perfekt (sannolikt på grund av överanpassning). Om det återstående standardfelet inte kan visas att skilja sig väsentligt från variationen i det ovillkorliga svaret, finns det lite som tyder på att den linjära modellen har någon förutsägbar förmåga.

Kommentarer

Detta kan ha besvarats tidigare. Se om den här frågan ger de svar du behöver. [Tolkning av R ' s lm () output] [1] [1]: stats.stackexchange.com/questions/5135 / …

Svar

Säg vi ha följande ANOVA-tabell (anpassad från R ”s example(aov) -kommando):

 Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57

Om du delar summan av kvadrater från vilken variationskälla som helst (modell eller restprodukter) med dess respektive frihetsgrader, får du det genomsnittliga kvadratet. Särskilt för residualerna:

$$ \ frac {306.3} {4} = 76.575 \ cirka 76,57 $$

Så 76,57 är medelkvadraten för resterna, dvs mängden rest (efter tillämpning av modellen) på din svarsvariabel.

återstående standardfel du ”frågat om är inget annat än positiva kvadratroten av medelkvadratfelet . I mitt exempel skulle det återstående standardfelet vara lika med $ \ sqrt {76.57} $, eller ungefär 8,75. R skulle mata ut denna information som ”8,75 på 4 frihetsgrader”.

Kommentarer

Jag röstade upp svaret från @AdamO eftersom som person som använder regression direkt oftast, var det svaret det enklaste för mig. Jag uppskattar dock detta svar eftersom det illustrerar det notationella / konceptuella / metodologiska förhållandet mellan ANOVA och linjär regression.

Svar

Normalt ser en regressionsmodell ut så här: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ där $ \ epsilon $ är en felterm oberoende av $ X $.

Om $ \ beta_ {0} $ och $ \ beta_ {1} $ är kända, kan vi fortfarande inte helt förutsäga Y med X på grund av $ \ epsilon $. Därför använder vi RSE som ett bedömningsvärde för standardavvikelsen på $ \ epsilon $.

RSE förklaras ganska tydligt i ”Introduktion till statistiskt lärande”.

Kommentarer

Detta borde vara det accepterade svaret. RSE är bara en uppskattning av standardavvikelsen på $ \ epsilon $, dvs rest. Det ' är också känt som den återstående standardavvikelsen (RSD), och den kan definieras som $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (t.ex. se ISL sida 66).
För alla som läser epuben av ISL kan du hitta " sida 66 " med ctrl-f " återstående standardfel. " (Epub-filer har inte riktiga sidnummer).

Svar

återstående standardfel är $ \ sqrt {MSE} $ . $ MSE $ är en opartisk uppskattning av $ \ sigma ^ 2 $ , där $ \ sigma ^ 2 = Var (y | x) $ .

För att tydliggöra svaret från @Silverfish och @Waldir Leoncio.
En sammanfattning av alla definitioner visas nedan. Har alltid blivit förvirrad av dessa termer, lägg den här istället för att göra den som en kommentar för bättre formatering.

Anova-tabell för SLR / Simple Linear Regression (DF är annorlunda vid multipel regression):

Källa	DF	Sum Sq	Mean Sq	F-värde
Regression	$ 1 $	$ SSR $	$ MSR = \ frac {SSR} {1} $	$ \ frac {MSR} {MSE} $
Återstående	$ n – 2 $	$ SSE $	$ MSE = \ frac {SSE} {n – 2} $
Totalt	~~$ n – 1 $~~	$ SST $

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Kommentarer

Svar

Lämna ett svar Avbryt svar