Cosè lerrore standard residuo?

Quando si esegue un modello di regressione multipla in R, uno degli output è un errore standard residuo di 0,0589 su 95,161 gradi di libertà. So che i 95.161 gradi di libertà sono dati dalla differenza tra il numero di osservazioni nel mio campione e il numero di variabili nel mio modello. Qual è lerrore standard residuo?

Commenti

  • Questa domanda e le sue risposte potrebbero aiutare: Perché diciamo errore standard residuo?
  • Una rapida domanda: " errore standard residuo " lo stesso della " deviazione standard residua "? Gelman e Hill (p.41, 2007) sembrano usarli in modo intercambiabile.

Answer

Una regressione adattata model utilizza i parametri per generare previsioni di stima puntuale che sono i mezzi delle risposte osservate se si replicasse lo studio con gli stessi valori $ X $ un numero infinito di volte (e quando il modello lineare è vero). La differenza tra questi valori previsti e quelli utilizzati per adattarsi al modello sono chiamati “residui” che, quando replicano il processo di raccolta dati, hanno proprietà di variabili casuali con medie 0.

I residui osservati vengono quindi utilizzati per stimare successivamente la variabilità di questi valori e per stimare la distribuzione campionaria dei parametri. Quando lerrore standard residuo è esattamente 0, il modello si adatta perfettamente ai dati (probabilmente a causa di overfitting). Se non è possibile dimostrare che lerrore standard residuo è significativamente diverso dalla variabilità nella risposta incondizionata, allora ci sono poche prove che suggeriscano che il modello lineare abbia una capacità predittiva.

Commenti

Risposta

Diciamo noi avere la seguente tabella ANOVA (adattata dal comando R “s example(aov)):

 Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57 

Se dividi la somma di quadrati da qualsiasi fonte di variazione (modello o residui) dai rispettivi gradi di libertà, si ottiene il quadrato medio. In particolare per i residui:

$$ \ frac {306.3} {4} = 76.575 \ circa 76,57 $$

Quindi 76,57 è il quadrato medio dei residui, cioè la quantità di variazione residua (dopo aver applicato il modello) sulla variabile di risposta.

Il errore standard residuo di cui “hai chiesto” non è altro che la radice quadrata positiva di lerrore quadratico medio . Nel mio esempio, lerrore standard residuo sarebbe uguale a $ \ sqrt {76,57} $ o approssimativamente 8,75. R produrrebbe queste informazioni come “8,75 su 4 gradi di libertà”.

Commenti

  • Ho votato in alto la risposta di @AdamO perché come persona che usa direttamente la regressione più spesso, quella risposta è stata la più semplice per me. Tuttavia, apprezzo questa risposta in quanto illustra la relazione notazionale / concettuale / metodologica tra ANOVA e regressione lineare.

Risposta

In genere si avrà un modello di regressione simile al seguente: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ dove $ \ epsilon $ è un termine di errore indipendente da $ X $.

Se $ \ beta_ {0} $ e $ \ beta_ {1} $ sono noti, non possiamo ancora prevedere perfettamente Y usando X a causa di $ \ epsilon $. Pertanto, utilizziamo RSE come valore di valutazione della deviazione standard di $ \ epsilon $.

RSE è spiegato abbastanza chiaramente in “Introduzione allapprendimento statistico”.

Commenti

  • Questa dovrebbe essere la risposta accettata. RSE è solo una stima della deviazione standard di $ \ epsilon $, ovvero il residuo. È ' noto anche come deviazione standard residua (RSD) e può essere definito come $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (ad es. vedi ISL pagina 66).
  • Per chiunque legga lepub di ISL, puoi individuare " pagina 66 " con ctrl-f " errore standard residuo. " (i file Epub non hanno numeri di pagina veri).

Risposta

errore standard residuo è $ \ sqrt {MSE} $ . $ MSE $ è uno stimatore imparziale di $ \ sigma ^ 2 $ , dove $ \ sigma ^ 2 = Var (y | x) $ .

Per rendere più chiara la risposta di @Silverfish e @Waldir Leoncio.
Di seguito è stato mostrato un riepilogo di tutte le definizioni. Sono sempre stato confuso da questi termini, mettilo qui invece di commentarlo per una migliore formattazione.

Tabella Anova di SLR / Simple Linear Regressione (DF è diverso per la regressione multipla):

Sorgente DF Sum Sq Mean Sq Valore F
Regressione $ 1 $ $ SSR $ $ MSR = \ frac {SSR} {1} $ $ \ frac {MSR} {MSE} $
Residuo $ n – 2 $ $ SSE $ $ MSE = \ frac {SSE} {n – 2} $
Totale $ n – 1 $ $ SST $

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *