Co je zbytková standardní chyba?

Při spuštění modelu vícenásobné regrese v R je jedním z výstupů zbytková standardní chyba 0,0589 na 95 161 stupních volnosti. Vím, že 95 161 stupňů volnosti je dáno rozdílem mezi počtem pozorování v mém vzorku a počtem proměnných v mém modelu. Co je zbytková standardní chyba?

Komentáře

  • Tato otázka a její odpovědi mohou pomoci: Proč říkáme zbytková standardní chyba?
  • Rychlá otázka: Je " zbytková standardní chyba " stejné jako " zbytková standardní odchylka "? Zdá se, že je Gelman a Hill (str. 41, 2007) používají zaměnitelně.

Odpověď

Přizpůsobená regrese model používá parametry ke generování předpovědí odhadu bodu, což jsou prostředky pozorovaných odpovědí, pokud byste měli studii replikovat se stejnými hodnotami $ X $ nekonečně mnohokrát (a pokud je lineární model pravdivý). Rozdíl mezi těmito předpovězenými hodnotami a hodnotami použitými k přizpůsobení modelu se nazývá „zbytky“, které mají při replikaci procesu sběru dat vlastnosti náhodných proměnných s 0 prostředky.

Pozorované rezidua se poté použijí k následnému odhadu variability těchto hodnot a k odhadu distribuce vzorkování parametrů. Když je zbytková standardní chyba přesně 0, pak model dokonale zapadá do dat (pravděpodobně kvůli nadměrnému vybavení). Pokud nelze prokázat, že zbytková standardní chyba je významně odlišná od variability bezpodmínečné odezvy, existuje jen málo důkazů o tom, že by lineární model měl nějakou prediktivní schopnost.

Komentáře

Odpověď

Řekněme mít následující tabulku ANOVA (převzato z příkazu R „s example(aov)):

 Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57 

Pokud rozdělíte součet čtverců z libovolného zdroje variací (model nebo zbytky) podle příslušných stupňů volnosti získáte střední čtverec. Zejména pro zbytky:

$$ \ frac {306.3} {4} = 76,575 \ přibližně 76,57 $$

Takže 76,57 je střední čtverec zbytků, tj. množství zbytkové (po použití modelu) variace proměnné vaší odpovědi.

zbytková standardní chyba na kterou jste se ptali, není nic jiného než kladná druhá odmocnina střední kvadratická chyba . V mém příkladu by zbytková standardní chyba byla rovna $ \ sqrt {76,57} $, nebo přibližně 8,75. R by vydal tuto informaci jako „8,75 na 4 stupních volnosti“.

Komentáře

  • Hlasoval jsem pro odpověď od @AdamO, protože jako člověk, který nejčastěji používá regresi, byla pro mě ta odpověď nejpřímější. Oceňuji však tuto odpověď, protože ilustruje notační / koncepční / metodický vztah mezi ANOVA a lineární regresí.

Odpověď

Regresní model obvykle vypadá takto: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$, kde $ \ epsilon $ je chybový výraz nezávislý na $ X $.

Pokud jsou známy $ \ beta_ {0} $ a $ \ beta_ {1} $, nemůžeme dokonale předpovědět Y pomocí X kvůli $ \ epsilon $. Proto používáme RSE jako hodnotu úsudku směrodatné odchylky $ \ epsilon $.

RSE je velmi jasně vysvětleno v „Úvod do statistického učení“.

Komentáře

  • Toto by měla být přijatá odpověď. RSE je pouze odhad směrodatné odchylky $ \ epsilon $, tj. Zbytková hodnota. Je to ' s také známé jako zbytková standardní odchylka (RSD) a lze jej definovat jako $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (např. viz ISL strana 66).
  • Pro každého, kdo čte epub ISL, můžete najít " stránku 66 " se ctrl-f " zbytkovou standardní chybou. " (soubory Epub nemají skutečná čísla stránek).

Odpověď

zbytková standardní chyba je $ \ sqrt {MSE} $ . $ MSE $ je nestranný odhad $ \ sigma ^ 2 $ , kde $ \ sigma ^ 2 = Var (y | x) $ .

Abychom objasnili odpověď @Silverfish a @Waldir Leoncio.
Níže je uveden souhrn všech definic. Tyto výrazy vás vždy zmátly, místo komentáře pro lepší formátování jej sem vložte.

Anova tabulka SLR / Simple Linear Regrese (DF se liší u vícenásobné regrese):

Zdroj DF Sum Sq Střední Sq Hodnota F
Regrese $ 1 $ $ SSR $ $ MSR = \ frac {SSR} {1} $ $ \ frac {MSR} {MSE} $
Zbytkové $ n – 2 $ $ SSE $ $ MSE = \ frac {SSE} {n – 2} $
Celkem $ n – 1 $ $ SST $

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *