Când rulați un model de regresie multiplă în R, una dintre ieșiri este o eroare standard reziduală de 0,0589 pe 95.161 de grade de libertate. Știu că cele 95.161 de grade de libertate sunt date de diferența dintre numărul de observații din eșantionul meu și numărul de variabile din modelul meu. Care este eroarea standard reziduală?
Comentarii
- Această întrebare și răspunsurile sale ar putea ajuta: De ce spunem eroare standard reziduală?
- O întrebare rapidă: este " eroare standard reziduală " la fel ca " abaterea standard reziduală "? Gelman și Hill (p.41, 2007) par să le folosească în mod interschimbabil.
Răspuns
O regresie potrivită modelul folosește parametrii pentru a genera predicții de estimare punctuală, care sunt mijloacele de răspunsuri observate, dacă ar fi să replicați studiul cu aceleași valori de $ X $ de un număr infinit de ori (și când modelul liniar este adevărat). Diferența dintre aceste valori prezise și cele utilizate pentru a se potrivi modelului se numesc „reziduuri” care, atunci când replică procesul de colectare a datelor, au proprietăți ale variabilelor aleatorii cu 0 medii.
Reziduurile observate sunt apoi utilizate pentru a estima ulterior variabilitatea acestor valori și pentru a estima distribuția eșantionării parametrilor. Atunci când eroarea standard reziduală este exact 0, atunci modelul se potrivește perfect cu datele (probabil datorită supra-montării). Dacă eroarea standard reziduală nu poate fi dovedită a fi semnificativ diferită de variabilitatea răspunsului necondiționat, atunci există puține dovezi care să sugereze că modelul liniar are vreo capacitate predictivă.
Comentarii
- Este posibil să fi fost răspuns anterior. Vedeți dacă această întrebare vă oferă răspunsurile de care aveți nevoie. [Interpretarea R ' s lm () output] [1] [1]: stats.stackexchange.com/questions/5135 / …
Răspuns
Spuneți au următorul tabel ANOVA (adaptat din comanda R „s example(aov)
):
Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57
Dacă împărțiți suma de pătrate din orice sursă de variație (model sau reziduuri) în funcție de gradul său de libertate, obțineți pătratul mediu. În special pentru reziduuri:
$$ \ frac {306.3} {4} = 76.575 \ aproximativ 76,57 $$
Deci 76,57 este pătratul mediu al reziduurilor, adică cantitatea de variație reziduală (după aplicarea modelului) a variabilei de răspuns.
eroare standard reziduală despre care ați întrebat nu este altceva decât rădăcină pătrată pozitivă a eroarea pătrată medie . În exemplul meu, eroarea standard reziduală ar fi egală cu $ \ sqrt {76,57} $ sau aproximativ 8,75. R ar afișa aceste informații ca „8,75 pe 4 grade de libertate”.
Comentarii
- Am votat răspunsul de la @AdamO pentru că, ca persoană care folosește regresia direct cel mai des, acest răspuns a fost cel mai simplu pentru mine. Cu toate acestea, apreciez acest răspuns deoarece ilustrează relația noțională / conceptuală / metodologică dintre ANOVA și regresia liniară.
Răspuns
De obicei, veți avea un model de regresie care arată astfel: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ unde $ \ epsilon $ este un termen de eroare independent de $ X $.
Dacă sunt cunoscuți $ \ beta_ {0} $ și $ \ beta_ {1} $, tot nu putem prezice perfect Y folosind X datorită $ \ epsilon $. Prin urmare, folosim RSE ca valoare de judecată a deviației standard a $ \ epsilon $.
RSE este explicat destul de clar în „Introducere în învățarea statistică”.
Comentarii
- Acesta ar trebui să fie răspunsul acceptat. RSE este doar o estimare a deviației standard a $ \ epsilon $, adică a reziduului. ' este, de asemenea, cunoscut sub numele de deviația standard reziduală (RSD) și poate fi definit ca $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (de exemplu, consultați ISL pagina 66).
- Pentru oricine citește epub-ul ISL, puteți găsi " pagina 66 " cu ctrl-f " eroare standard reziduală. " (fișierele Epub nu au numere de pagină adevărate).
Răspuns
eroare standard reziduală este $ \ sqrt {MSE} $ . $ MSE $ este un estimator imparțial al $ \ sigma ^ 2 $ , unde $ \ sigma ^ 2 = Var (y | x) $ .
Pentru a clarifica răspunsul de la @Silverfish și @Waldir Leoncio.
Un rezumat al tuturor definițiilor a fost prezentat mai jos. Întotdeauna am fost confuz de acești termeni, puneți-l aici în loc să îl faceți ca un comentariu pentru o mai bună formatare.
Tabelul Anova al SLR / Simple Linear Regresie (DF este diferit pentru regresie multiplă):
Sursă | DF | Sum Sq | Sq medie | Valoare F |
---|---|---|---|---|
Regresie | $ 1 $ | $ SSR $ | $ MSR = \ frac {SSR} {1} $ | $ \ frac {MSR} {MSE} $ |
Rezidual | $ n – 2 $ | $ SSE $ | $ MSE = \ frac {SSE} {n – 2} $ | |
Total | |
$ SST $ |