Hvad er reststandardfejl?

Når du kører en multipel regressionsmodel i R, er en af udgangene en resterende standardfejl på 0,0589 på 95.161 frihedsgrader. Jeg ved, at de 95.161 frihedsgrader er givet ved forskellen mellem antallet af observationer i min prøve og antallet af variabler i min model. Hvad er den resterende standardfejl?

Kommentarer

  • Dette spørgsmål og dets svar kan hjælpe: Hvorfor siger vi reststandardfejl?
  • Et hurtigt spørgsmål: Er " reststandardfejl " det samme som " resterende standardafvigelse "? Gelman og Hill (s.41, 2007) ser ud til at bruge dem om hverandre.

Svar

En passende regression modellen bruger parametrene til at generere forudsigelser af pointestimater, som er middel til observerede svar, hvis du skulle replikere undersøgelsen med de samme $ X $ -værdier et uendeligt antal gange (og når den lineære model er sand). Forskellen mellem disse forudsagte værdier og dem, der bruges til at passe til modellen, kaldes “rester”, som, når de replikerer dataindsamlingsprocessen, har egenskaber af tilfældige variabler med 0 betyder.

De observerede rester bruges derefter til efterfølgende at estimere variabiliteten i disse værdier og til at estimere samplingfordelingen af parametrene. Når den resterende standardfejl er nøjagtigt 0, passer modellen perfekt til dataene (sandsynligvis på grund af overmontering). Hvis den resterende standardfejl ikke kan vises at være væsentlig forskellig fra variationen i det ubetingede respons, er der kun få tegn på, at den lineære model har nogen forudsigelig evne. class = “comments”>

  • Dette kan have været besvaret før. Se om dette spørgsmål giver de svar, du har brug for. [Fortolkning af R ' s lm () output] [1] [1]: stats.stackexchange.com/questions/5135 / …
  • Svar

    Sig vi have følgende ANOVA-tabel (tilpasset fra R “s example(aov) kommando):

     Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57 

    Hvis du deler summen af firkanter fra en hvilken som helst variationskilde (model eller rester) efter dens respektive frihedsgrader, får du middelværdien. Særligt for resterne:

    $$ \ frac {306.3} {4} = 76.575 \ ca. 76,57 $$

    Så 76,57 er middelværdien af residualerne, dvs. mængden af restvariant (efter anvendelse af modellen) på din svarsvariabel.

    resterende standardfejl du har spurgt om, er intet andet end positive kvadratrod af den gennemsnitlige firkantede fejl . I mit eksempel vil den resterende standardfejl være lig med $ \ sqrt {76.57} $ eller cirka 8,75. R ville udsende disse oplysninger som “8,75 på 4 frihedsgrader”.

    Kommentarer

    • Jeg stemte for svaret fra @AdamO, fordi som en person, der ofte bruger regression direkte, var det svar det mest ligefremme for mig. Imidlertid sætter jeg pris på dette svar, da det illustrerer det notationelle / konceptuelle / metodologiske forhold mellem ANOVA og lineær regression.

    Svar

    Du vil typisk have en regressionsmodel, der ser sådan ud: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ hvor $ \ epsilon $ er et fejludtryk uafhængigt af $ X $.

    Hvis $ \ beta_ {0} $ og $ \ beta_ {1} $ er kendt, kan vi stadig ikke perfekt forudsige Y ved hjælp af X på grund af $ \ epsilon $. Derfor bruger vi RSE som en vurderingsværdi af standardafvigelsen på $ \ epsilon $.

    RSE forklares temmelig tydeligt i “Introduktion til statistisk læring”.

    Kommentarer

    • Dette skal være det accepterede svar. RSE er bare et skøn over standardafvigelsen på $ \ epsilon $, dvs. det resterende. Det ' er også kendt som den resterende standardafvigelse (RSD), og det kan defineres som $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (f.eks. se ISL side 66).
    • For alle, der læser ISLs epub, kan du finde " side 66 " med ctrl-f " resterende standardfejl. " (Epub-filer har ikke rigtige sidetal).

    Svar

    resterende standardfejl er $ \ sqrt {MSE} $ . $ MSE $ er en upartisk estimator af $ \ sigma ^ 2 $ , hvor $ \ sigma ^ 2 = Var (y | x) $ .

    For at gøre det mere klart af svaret fra @Silverfish og @Waldir Leoncio.
    Et resumé af alle definitioner blev vist nedenfor. Bliv altid forvirret af disse udtryk, læg det her i stedet for at gøre det som en kommentar til bedre formatering.

    Anova-tabel med SLR / Simple Linear Regression (DF er forskellig for multipel regression):

    Kilde DF Sum Sq Gennemsnitlig Sq F-værdi
    Regression $ 1 $ $ SSR $ $ MSR = \ frac {SSR} {1} $ $ \ frac {MSR} {MSE} $
    Resterende $ n – 2 $ $ SSE $ $ MSE = \ frac {SSE} {n – 2} $
    I alt $ n – 1 $ $ SST $

    Skriv et svar

    Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *