¿Qué es el error estándar residual?

Cuando se ejecuta un modelo de regresión múltiple en R, una de las salidas es un error estándar residual de 0.0589 en 95,161 grados de libertad. Sé que los 95,161 grados de libertad vienen dados por la diferencia entre el número de observaciones en mi muestra y el número de variables en mi modelo. ¿Cuál es el error estándar residual?

Comentarios

  • Esta pregunta y sus respuestas pueden ayudar: ¿Por qué decimos error estándar residual?
  • Una pregunta rápida: ¿Es " error estándar residual " igual que " desviación estándar residual "? Gelman y Hill (p.41, 2007) parecen usarlos indistintamente.

Respuesta

Una regresión ajustada modelo utiliza los parámetros para generar predicciones de estimación puntual que son los medios de las respuestas observadas si tuviera que replicar el estudio con los mismos valores $ X $ un número infinito de veces (y cuando el modelo lineal es verdadero). La diferencia entre estos valores predichos y los utilizados para ajustar el modelo se denominan «residuales» que, al replicar el proceso de recolección de datos, tienen propiedades de variables aleatorias con medias 0.

Los residuos observados se utilizan para estimar posteriormente la variabilidad de estos valores y estimar la distribución muestral de los parámetros. Cuando el error estándar residual es exactamente 0, el modelo se ajusta perfectamente a los datos (probablemente debido a un sobreajuste). Si no se puede demostrar que el error estándar residual sea significativamente diferente de la variabilidad en la respuesta incondicional, entonces hay poca evidencia que sugiera que el modelo lineal tiene alguna capacidad predictiva.

Comentarios

Responder

Digamos que tienen la siguiente tabla ANOVA (adaptada del comando R «s example(aov)):

 Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57 

Si divide la suma de cuadrados de cualquier fuente de variación (modelo o residuos) por sus respectivos grados de libertad, se obtiene el cuadrado medio. Particularmente para los residuos:

$$ \ frac {306.3} {4} = 76.575 \ aproximadamente 76.57 $$

Entonces 76.57 es el cuadrado medio de los residuales, es decir, la cantidad de variación residual (después de aplicar el modelo) en su variable de respuesta.

El error estándar residual que «ha preguntado no es más que la raíz cuadrada positiva de el error cuadrático medio . En mi ejemplo, el error estándar residual sería igual a $ \ sqrt {76.57} $, o aproximadamente 8.75. R generaría esta información como «8.75 en 4 grados de libertad».

Comentarios

  • Elegí la respuesta de @AdamO porque, como persona que usa la regresión directamente con más frecuencia, esa respuesta fue la más sencilla para mí. Sin embargo, aprecio esta respuesta ya que ilustra la relación de notación / conceptual / metodológica entre ANOVA y regresión lineal.

Respuesta

Por lo general, tendrá un modelo de regresión con el siguiente aspecto: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ donde $ \ epsilon $ es un término de error independiente de $ X $.

Si se conocen $ \ beta_ {0} $ y $ \ beta_ {1} $, todavía no podemos predecir perfectamente Y usando X debido a $ \ epsilon $. Por lo tanto, usamos RSE como valor de juicio de la desviación estándar de $ \ epsilon $.

RSE se explica con bastante claridad en «Introducción al aprendizaje estadístico».

Comentarios

  • Esta debe ser la respuesta aceptada. RSE es solo una estimación de la desviación estándar de $ \ epsilon $, es decir, el residual. Se ' también se conoce como la desviación estándar residual (RSD) y se puede definir como $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (p. ej., consulte la página 66 de ISL).
  • Para cualquiera que lea el epub de ISL, puede ubicar la " página 66 " con ctrl-f " error estándar residual. " (Los archivos Epub no tienen números de página verdaderos).

Respuesta

El error estándar residual es $ \ sqrt {MSE} $ . $ MSE $ es un estimador imparcial de $ \ sigma ^ 2 $ , donde $ \ sigma ^ 2 = Var (y | x) $ .

Para aclarar la respuesta de @Silverfish y @Waldir Leoncio.
A continuación se muestra un resumen de todas las definiciones. Siempre me confundí con estos términos, póngalo aquí en lugar de hacerlo como comentario para un mejor formato.

Tabla Anova de SLR / Simple Linear Regresión (DF es diferente para regresión múltiple):

Fuente DF Sum Sq Mean Sq valor F
Regresión $ 1 $ $ SSR $ $ MSR = \ frac {SSR} {1} $ $ \ frac {MSR} {MSE} $
Residual $ n – 2 $ $ SSE $ $ MSE = \ frac {SSE} {n – 2} $
Total $ n – 1 $ $ SST $

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *