Quest-ce que lerreur standard résiduelle?

Lors de lexécution dun modèle de régression multiple dans R, lune des sorties est une erreur standard résiduelle de 0,0589 sur 95 161 degrés de liberté. Je sais que les 95 161 degrés de liberté sont donnés par la différence entre le nombre dobservations dans mon échantillon et le nombre de variables dans mon modèle. Quelle est lerreur standard résiduelle?

Commentaires

  • Cette question et ses réponses peuvent aider: Pourquoi dit-on erreur standard résiduelle?
  • Une petite question: " erreur standard résiduelle " identique à " écart type résiduel "? Gelman et Hill (p.41, 2007) semblent les utiliser de manière interchangeable.

Réponse

Une régression ajustée model utilise les paramètres pour générer des prédictions destimation ponctuelle qui sont les moyennes des réponses observées si vous répliquez létude avec les mêmes valeurs $ X $ un nombre infini de fois (et lorsque le modèle linéaire est vrai). La différence entre ces valeurs prédites et celles utilisées pour ajuster le modèle est appelée «résidus» qui, lors de la réplication du processus de collecte de données, ont des propriétés de variables aléatoires avec une moyenne de 0.

Les résidus observés sont ensuite utilisés pour estimer ultérieurement la variabilité de ces valeurs et pour estimer la distribution déchantillonnage des paramètres. Lorsque lerreur standard résiduelle est exactement de 0, le modèle sadapte parfaitement aux données (probablement en raison dun surajustement). Sil nest pas possible de montrer que lerreur standard résiduelle est significativement différente de la variabilité de la réponse inconditionnelle, alors peu de preuves suggèrent que le modèle linéaire a une capacité prédictive.

Commentaires

Réponse

Disons que nous avoir le tableau ANOVA suivant (adapté de la commande R « s example(aov)):

 Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57 

Si vous divisez la somme de carrés de toute source de variation (modèle ou résidus) par ses degrés de liberté respectifs, on obtient le carré moyen. En particulier pour les résidus:

$$ \ frac {306.3} {4} = 76.575 \ environ 76,57 $$

Donc, 76,57 est le carré moyen des résidus, cest-à-dire la quantité de variation résiduelle (après application du modèle) sur votre variable de réponse.

Le erreur standard résiduelle dont vous avez « posé la question nest rien de plus que la racine carrée positive de lerreur quadratique moyenne . Dans mon exemple, lerreur standard résiduelle serait égale à $ \ sqrt {76,57} $, soit environ 8,75. R afficherait cette information sous la forme « 8,75 sur 4 degrés de liberté ».

Commentaires

  • Jai voté à la hausse la réponse de @AdamO car en tant que personne qui utilise la régression directement le plus souvent, cette réponse était la plus simple pour moi. Cependant, japprécie cette réponse car elle illustre la relation notation / conceptuelle / méthodologique entre lANOVA et la régression linéaire.

Answer

Typiquement, vous aurez un modèle de régression qui ressemble à ceci: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ où $ \ epsilon $ est un terme derreur indépendant de $ X $.

Si $ \ beta_ {0} $ et $ \ beta_ {1} $ sont connus, nous ne pouvons toujours pas prédire parfaitement Y en utilisant X en raison de $ \ epsilon $. Par conséquent, nous utilisons RSE comme valeur de jugement de lécart type de $ \ epsilon $.

RSE est expliqué assez clairement dans « Introduction à lapprentissage statistique ».

Commentaires

  • Cela devrait être la réponse acceptée. RSE est juste une estimation de lécart type de $ \ epsilon $, cest-à-dire le résidu. Il ' est également appelé écart type résiduel (RSD), et il peut être défini comme $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (par exemple, voir ISL page 66).
  • Pour toute personne lisant leepub dISL, vous pouvez localiser " page 66 " avec ctrl-f " erreur standard résiduelle. " (les fichiers Epub nont pas de vrais numéros de page).

Réponse

L erreur standard résiduelle est $ \ sqrt {MSE} $ . $ MSE $ est un estimateur non biaisé de $ \ sigma ^ 2 $ , où $ \ sigma ^ 2 = Var (y | x) $ .

Pour clarifier la réponse de @Silverfish et @Waldir Leoncio.
Un résumé de toutes les définitions est présenté ci-dessous. Toujours confus par ces termes, mettez-le ici au lieu de le faire comme un commentaire pour un meilleur formatage.

Table Anova de SLR / Simple Linear Régression (DF est différent pour la régression multiple):

Source DF Somme Sq Moyenne Sq Valeur F
Régression $ 1 $ $ SSR $ $ MSR = \ frac {SSR} {1} $ $ \ frac {MSR} {MSE} $
Résiduel $ n – 2 $ $ SSE $ $ MSE = \ frac {SSE} {n – 2} $
Total $ n – 1 $ $ SST $

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *