O que é erro padrão residual?

Ao executar um modelo de regressão múltipla em R, uma das saídas é um erro padrão residual de 0,0589 em 95.161 graus de liberdade. Eu sei que os 95.161 graus de liberdade são dados pela diferença entre o número de observações em minha amostra e o número de variáveis em meu modelo. Qual é o erro padrão residual?

Comentários

  • Esta pergunta e suas respostas podem ajudar: Por que dizemos erro padrão residual?
  • Uma pergunta rápida: é " erro padrão residual " o mesmo que " desvio padrão residual "? Gelman e Hill (p.41, 2007) parecem usá-los alternadamente.

Resposta

Uma regressão ajustada O modelo usa os parâmetros para gerar previsões de estimativas pontuais, que são as médias das respostas observadas se você replicar o estudo com os mesmos valores de $ X $ um número infinito de vezes (e quando o modelo linear for verdadeiro). A diferença entre esses valores preditos e os usados para ajustar o modelo são chamados de “resíduos” que, ao replicar o processo de coleta de dados, possuem propriedades de variáveis aleatórias com 0 médias.

Os resíduos observados são então usados para estimar subsequentemente a variabilidade nestes valores e para estimar a distribuição amostral dos parâmetros. Quando o erro padrão residual é exatamente 0, o modelo se ajusta perfeitamente aos dados (provavelmente devido ao sobreajuste). Se o erro padrão residual não puder ser mostrado como sendo significativamente diferente da variabilidade na resposta incondicional, então há pouca evidência para sugerir que o modelo linear tenha qualquer capacidade preditiva.

Comentários

Resposta

Digamos que nós tem a seguinte tabela ANOVA (adaptada do comando R “s example(aov)):

 Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57 

Se você dividir a soma de quadrados de qualquer fonte de variação (modelo ou resíduos) por seus respectivos graus de liberdade, você obtém o quadrado médio. Particularmente para os resíduos:

$$ \ frac {306,3} {4} = 76,575 \ aproximadamente 76,57 $$

Então, 76,57 é o quadrado médio dos resíduos, ou seja, a quantidade de variação residual (após a aplicação do modelo) em sua variável de resposta.

O erro padrão residual que você “perguntou não é nada mais do que raiz quadrada positiva de o erro quadrático médio . No meu exemplo, o erro padrão residual seria igual a $ \ sqrt {76,57} $, ou aproximadamente 8,75. R produziria esta informação como “8,75 em 4 graus de liberdade”.

Comentários

  • Votei positivamente na resposta de @AdamO porque como um pessoa que usa regressão diretamente na maioria das vezes, essa resposta foi a mais direta para mim. No entanto, agradeço esta resposta, pois ilustra a relação notacional / conceitual / metodológica entre ANOVA e regressão linear.

Resposta

Normalmente você terá um modelo de regressão parecido com este: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ onde $ \ epsilon $ é um termo de erro independente de $ X $.

Se $ \ beta_ {0} $ e $ \ beta_ {1} $ são conhecidos, ainda não podemos prever Y perfeitamente usando X devido a $ \ epsilon $. Portanto, usamos RSE como um valor de julgamento do Desvio Padrão de $ \ epsilon $.

O RSE é explicado de forma bastante clara em “Introdução ao aprendizado estatístico”.

Comentários

  • Essa deve ser a resposta aceita. RSE é apenas uma estimativa do desvio padrão de $ \ epsilon $, ou seja, o resíduo. É ' também conhecido como desvio padrão residual (RSD) e pode ser definido como $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (por exemplo, consulte a página 66 do ISL).
  • Para qualquer pessoa que ler o epub do ISL, você pode localizar a " página 66 " com ctrl-f " erro padrão residual. " (arquivos Epub não têm números de página verdadeiros).

Resposta

O erro padrão residual é $ \ sqrt {MSE} $ . O $ MSE $ é um estimador imparcial de $ \ sigma ^ 2 $ , onde $ \ sigma ^ 2 = Var (y | x) $ .

Para deixar mais claro a resposta de @Silverfish e @Waldir Leoncio.
Um resumo de todas as definições foi mostrado abaixo. Sempre se confundiu com esses termos, coloque-o aqui em vez de fazer um comentário para melhor formatação.

Tabela Anova de SLR / Linear Simples Regressão (DF é diferente para regressão múltipla):

Fonte DF Soma Sq Média Sq valor F
Regressão $ 1 $ $ SSR $ $ MSR = \ frac {SSR} {1} $ $ \ frac {MSR} {MSE} $
Residual $ n – 2 $ $ SSE $ $ MSE = \ frac {SSE} {n – 2} $
Total $ n – 1 $ $ SST $

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *