Wat is een resterende standaardfout?

Bij het draaien van een meervoudig regressiemodel in R, is een van de outputs een resterende standaardfout van 0,0589 op 95,161 vrijheidsgraden. Ik weet dat de 95.161 vrijheidsgraden worden bepaald door het verschil tussen het aantal waarnemingen in mijn steekproef en het aantal variabelen in mijn model. Wat is de resterende standaardfout?

Opmerkingen

  • Deze vraag en zijn antwoorden kunnen helpen: Waarom zeggen we resterende standaardfout?
  • Een korte vraag: is " resterende standaardfout " hetzelfde als " resterende standaarddeviatie "? Gelman en Hill (p.41, 2007) lijken ze door elkaar te gebruiken.

Antwoord

Een passende regressie model gebruikt de parameters om puntschattingsvoorspellingen te genereren die het middel zijn van geobserveerde reacties als u het onderzoek een oneindig aantal keren zou repliceren met dezelfde $ X $ -waarden (en wanneer het lineaire model waar is). Het verschil tussen deze voorspelde waarden en de waarden die worden gebruikt om in het model te passen, worden “residuen” genoemd, die bij replicatie van het gegevensverzamelingsproces eigenschappen hebben van willekeurige variabelen met 0-gemiddelden.

De waargenomen residuen worden vervolgens gebruikt om vervolgens de variabiliteit in deze waarden te schatten en om de steekproefverdeling van de parameters te schatten. Als de resterende standaardfout exact 0 is, past het model perfect bij de gegevens (waarschijnlijk vanwege overfitting). Als niet kan worden aangetoond dat de resterende standaardfout significant verschilt van de variabiliteit in de onvoorwaardelijke respons, is er weinig bewijs dat suggereert dat het lineaire model enige voorspellende waarde heeft.

Opmerkingen

Antwoord

Stel dat we de volgende ANOVA-tabel hebben (aangepast van R “s example(aov) commando):

 Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57 

Als u de som deelt van vierkanten van elke bron van variatie (model of residuen) door de respectieve vrijheidsgraden, krijgt u het gemiddelde kwadraat. Vooral voor de residuen:

$$ \ frac {306.3} {4} = 76.575 \ ca. 76,57 $$

Dus 76,57 is het gemiddelde kwadraat van de residuen, dwz de hoeveelheid residuale (na toepassing van het model) variatie op uw responsvariabele.

De resterende standaardfout waarnaar u “hebt gevraagd, is niets meer dan de positieve vierkantswortel van de gemiddelde kwadratische fout . In mijn voorbeeld zou de resterende standaardfout gelijk zijn aan $ \ sqrt {76,57} $, of ongeveer 8,75. R zou deze informatie uitvoeren als “8,75 op 4 vrijheidsgraden”.

Reacties

  • Ik heb het antwoord van @AdamO omhoog gestemd omdat als een persoon die het vaakst regressie gebruikt, was dat antwoord het meest eenvoudig voor mij. Ik waardeer dit antwoord echter omdat het de notationele / conceptuele / methodologische relatie tussen ANOVA en lineaire regressie illustreert.

Antwoord

Normaal gesproken ziet u een regressiemodel dat er als volgt uitziet: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ waarbij $ \ epsilon $ een foutterm is die onafhankelijk is van $ X $.

Als $ \ beta_ {0} $ en $ \ beta_ {1} $ bekend zijn, kunnen we Y nog steeds niet perfect voorspellen met X vanwege $ \ epsilon $. Daarom gebruiken we RSE als een beoordelingswaarde van de standaarddeviatie van $ \ epsilon $.

RSE wordt vrij duidelijk uitgelegd in “Inleiding tot statistisch leren”.

Reacties

  • Dit zou het geaccepteerde antwoord moeten zijn. RSE is slechts een schatting van de standaarddeviatie van $ \ epsilon $, d.w.z. het residu. Het ' wordt ook wel de residuele standaarddeviatie (RSD) genoemd en kan worden gedefinieerd als $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (zie bijvoorbeeld ISL pagina 66).
  • Iedereen die de epub van ISL leest, kan " pagina 66 " met ctrl-f " resterende standaardfout. " (Epub-bestanden hebben geen echte paginanummers).

Antwoord

De resterende standaardfout is $ \ sqrt {MSE} $ . De $ MSE $ is een onbevooroordeelde schatter van $ \ sigma ^ 2 $ , waarbij $ \ sigma ^ 2 = Var (y | x) $ .

Om het antwoord duidelijker te maken door @Silverfish en @Waldir Leoncio.
Een samenvatting van alle definities werd hieronder getoond. Ben altijd in de war geraakt door deze termen, plaats het hier in plaats van het als commentaar te gebruiken voor een betere opmaak.

Anova-tabel van SLR / Simple Linear Regressie (DF is anders voor meervoudige regressie):

Bron DF Som Sq Gemiddelde Sq F-waarde
Regressie $ 1 $ $ SSR $ $ MSR = \ frac {SSR} {1} $ $ \ frac {MSR} {MSE} $
Residu $ n – 2 $ $ SSE $ $ MSE = \ frac {SSE} {n – 2} $
Totaal $ n – 1 $ $ SST $

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *