Quando si esegue un modello di regressione multipla in R, uno degli output è un errore standard residuo di 0,0589 su 95,161 gradi di libertà. So che i 95.161 gradi di libertà sono dati dalla differenza tra il numero di osservazioni nel mio campione e il numero di variabili nel mio modello. Qual è lerrore standard residuo?
Commenti
- Questa domanda e le sue risposte potrebbero aiutare: Perché diciamo errore standard residuo?
- Una rapida domanda: " errore standard residuo " lo stesso della " deviazione standard residua "? Gelman e Hill (p.41, 2007) sembrano usarli in modo intercambiabile.
Answer
Una regressione adattata model utilizza i parametri per generare previsioni di stima puntuale che sono i mezzi delle risposte osservate se si replicasse lo studio con gli stessi valori $ X $ un numero infinito di volte (e quando il modello lineare è vero). La differenza tra questi valori previsti e quelli utilizzati per adattarsi al modello sono chiamati “residui” che, quando replicano il processo di raccolta dati, hanno proprietà di variabili casuali con medie 0.
I residui osservati vengono quindi utilizzati per stimare successivamente la variabilità di questi valori e per stimare la distribuzione campionaria dei parametri. Quando lerrore standard residuo è esattamente 0, il modello si adatta perfettamente ai dati (probabilmente a causa di overfitting). Se non è possibile dimostrare che lerrore standard residuo è significativamente diverso dalla variabilità nella risposta incondizionata, allora ci sono poche prove che suggeriscano che il modello lineare abbia una capacità predittiva.
Commenti
- Potrebbe essere stata già data una risposta. Vedi se questa domanda fornisce le risposte di cui hai bisogno. [Interpretazione di R ' s lm () output] [1] [1]: stats.stackexchange.com/questions/5135 / …
Risposta
Diciamo noi avere la seguente tabella ANOVA (adattata dal comando R “s example(aov)
):
Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57
Se dividi la somma di quadrati da qualsiasi fonte di variazione (modello o residui) dai rispettivi gradi di libertà, si ottiene il quadrato medio. In particolare per i residui:
$$ \ frac {306.3} {4} = 76.575 \ circa 76,57 $$
Quindi 76,57 è il quadrato medio dei residui, cioè la quantità di variazione residua (dopo aver applicato il modello) sulla variabile di risposta.
Il errore standard residuo di cui “hai chiesto” non è altro che la radice quadrata positiva di lerrore quadratico medio . Nel mio esempio, lerrore standard residuo sarebbe uguale a $ \ sqrt {76,57} $ o approssimativamente 8,75. R produrrebbe queste informazioni come “8,75 su 4 gradi di libertà”.
Commenti
- Ho votato in alto la risposta di @AdamO perché come persona che usa direttamente la regressione più spesso, quella risposta è stata la più semplice per me. Tuttavia, apprezzo questa risposta in quanto illustra la relazione notazionale / concettuale / metodologica tra ANOVA e regressione lineare.
Risposta
In genere si avrà un modello di regressione simile al seguente: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ dove $ \ epsilon $ è un termine di errore indipendente da $ X $.
Se $ \ beta_ {0} $ e $ \ beta_ {1} $ sono noti, non possiamo ancora prevedere perfettamente Y usando X a causa di $ \ epsilon $. Pertanto, utilizziamo RSE come valore di valutazione della deviazione standard di $ \ epsilon $.
RSE è spiegato abbastanza chiaramente in “Introduzione allapprendimento statistico”.
Commenti
- Questa dovrebbe essere la risposta accettata. RSE è solo una stima della deviazione standard di $ \ epsilon $, ovvero il residuo. È ' noto anche come deviazione standard residua (RSD) e può essere definito come $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (ad es. vedi ISL pagina 66).
- Per chiunque legga lepub di ISL, puoi individuare " pagina 66 " con ctrl-f " errore standard residuo. " (i file Epub non hanno numeri di pagina veri).
Risposta
errore standard residuo è $ \ sqrt {MSE} $ . $ MSE $ è uno stimatore imparziale di $ \ sigma ^ 2 $ , dove $ \ sigma ^ 2 = Var (y | x) $ .
Per rendere più chiara la risposta di @Silverfish e @Waldir Leoncio.
Di seguito è stato mostrato un riepilogo di tutte le definizioni. Sono sempre stato confuso da questi termini, mettilo qui invece di commentarlo per una migliore formattazione.
Tabella Anova di SLR / Simple Linear Regressione (DF è diverso per la regressione multipla):
Sorgente | DF | Sum Sq | Mean Sq | Valore F |
---|---|---|---|---|
Regressione | $ 1 $ | $ SSR $ | $ MSR = \ frac {SSR} {1} $ | $ \ frac {MSR} {MSE} $ |
Residuo | $ n – 2 $ | $ SSE $ | $ MSE = \ frac {SSE} {n – 2} $ | |
Totale | |
$ SST $ |