Ha többszörös regressziós modellt futtatunk R-ben, az egyik kimenet 0,0589 maradék standard hiba 95.161 szabadságfokon. Tudom, hogy a 95.161 szabadságfokot a mintámban szereplő megfigyelések és a modellemben szereplő változók száma közötti különbség adja. Mi a maradék standard hiba?
Megjegyzések
- Ez a kérdés és válaszai segíthetnek: Miért mondunk maradvány standard hibát?
- Gyors kérdés: " maradék standard hiba " ugyanaz, mint " maradvány szórás "? Úgy tűnik, Gelman és Hill (41. o., 2007) felcserélhető módon használják őket.
Válasz
Egy illesztett regresszió A modell a paraméterekkel generálja a becsült előrejelzéseket, amelyek a megfigyelt válaszok átlagát jelentik, ha a vizsgálatot végtelen számú alkalommal ugyanazokkal a $ X $ értékekkel replikálná (és amikor a lineáris modell igaz). Ezen előre jelzett értékek és a modellhez illesztett értékek közötti különbséget “maradványoknak” nevezzük, amelyek az adatgyűjtési folyamat megismétlésekor 0 átlaggal véletlenszerű változók tulajdonságokkal rendelkeznek.
A megfigyelt maradványokat ezután felhasználjuk ezen értékek változékonyságának utólagos becsléséhez és a paraméterek mintavételi eloszlásának becsléséhez. Amikor a maradék standard hiba pontosan 0, akkor a modell tökéletesen illeszkedik az adatokhoz (valószínűleg a túlillesztés miatt). Ha nem lehet kimutatni, hogy a maradék standard hiba jelentősen különbözik a feltétel nélküli válasz változékonyságától, akkor kevés bizonyíték utal arra, hogy a lineáris modell bármilyen prediktív képességgel rendelkezne.
Megjegyzések
- Erre esetleg már korábban is válaszoltak. Nézze meg, hogy ez a kérdés megadja-e a szükséges válaszokat. [Az R ' s lm () kimenet értelmezése [1] [1]: stats.stackexchange.com/questions/5135 / …
Válasz
Mondjuk rendelkezik a következő ANOVA táblával (az R “s example(aov)
paranccsal adaptálva):
Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57
Ha elosztja az összeget bármely variációs forrás (modell vagy maradvány) négyzetének megfelelő szabadságfoka szerint, megkapja az átlagos négyzetet. Különösen a maradványokra:
$$ \ frac {306.3} {4} = 76.575 \ kb. 76.57 $$
Tehát a 76.57 a maradványok átlagos négyzete, azaz a maradék (a modell alkalmazása után) variáció mennyisége a válaszváltozón.
A maradvány standard hiba , amire kérdeztél, nem más, mint a pozitív négyzetgyök az átlagos négyzet hiba . Példámban a maradék standard hiba egyenlő lenne $ \ sqrt {76.57} $ -val, vagy körülbelül 8,75-gyel. R ezt az információt “8,75-gyel adja meg 4 fokozatú szabadságon”.
Megjegyzések
- Felszavaztam @AdamO válaszát, mert mint aki közvetlenül használja a regressziót, ez a válasz volt a legegyszerűbb számomra. Nagyra értékelem ezt a választ, mivel ez szemlélteti az ANOVA és a lineáris regresszió közti / fogalmi / módszertani kapcsolatát.
Válasz
Általában a regressziós modell a következőképpen néz ki: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ ahol $ \ epsilon $ egy $ X $ -tól független hiba kifejezés.
Ha a $ \ beta_ {0} $ és $ \ beta_ {1} $ ismertek, akkor sem tudjuk tökéletesen megjósolni az Y használatát az X használatával a $ \ epsilon $ miatt. Ezért az RSE-t használjuk a $ \ epsilon $ szórásának megítélési értékeként.
Az RSE nagyjából világosan meg van magyarázva a “Bevezetés a statisztikai tanulásba” c.
Megjegyzések
- Ez legyen az elfogadott válasz. Az RSE csak a $ \ epsilon $ szórásának becslése, vagyis a maradék. ' néven maradvány szórás (RSD) néven is ismert, és meghatározható $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (pl. lásd ISL 66. oldal).
- Aki olvassa az ISL epub-ját, megtalálja a " 66. oldalt " a ctrl-f " maradék standard hibával. " (az Epub fájlok nem rendelkeznek valós oldalszámmal).
Válasz
A maradék standard hiba $ \ sqrt {MSE} $ . A $ MSE $ a $ \ sigma ^ 2 $ elfogulatlan becslője, ahol $ \ sigma ^ 2 = Var (y | x) $ .
Annak érdekében, hogy a @Silverfish és a @Waldir Leoncio válasza világosabb legyen.
Az összes definíció összefoglalója az alábbiakban látható. Mindig megzavarta ezeket a kifejezéseket, tegye ide, ahelyett, hogy a jobb formázáshoz kommentként tenné.
SLR / Simple Linear Anova táblázata Regresszió (a DF többszörös regresszió esetén különbözik):
Forrás | DF | Sum Sq | Mean Sq | F érték |
---|---|---|---|---|
Regresszió | $ 1 $ | $ SSR $ | $ MSR = \ frac {SSR} {1} $ | $ \ frac {MSR} {MSE} $ |
Maradék | $ n – 2 $ | $ SSE $ | $ MSE = \ frac {SSE} {n – 2} $ | |
Összesen | |
$ SST $ |