Ao executar um modelo de regressão múltipla em R, uma das saídas é um erro padrão residual de 0,0589 em 95.161 graus de liberdade. Eu sei que os 95.161 graus de liberdade são dados pela diferença entre o número de observações em minha amostra e o número de variáveis em meu modelo. Qual é o erro padrão residual?
Comentários
- Esta pergunta e suas respostas podem ajudar: Por que dizemos erro padrão residual?
- Uma pergunta rápida: é " erro padrão residual " o mesmo que " desvio padrão residual "? Gelman e Hill (p.41, 2007) parecem usá-los alternadamente.
Resposta
Uma regressão ajustada O modelo usa os parâmetros para gerar previsões de estimativas pontuais, que são as médias das respostas observadas se você replicar o estudo com os mesmos valores de $ X $ um número infinito de vezes (e quando o modelo linear for verdadeiro). A diferença entre esses valores preditos e os usados para ajustar o modelo são chamados de “resíduos” que, ao replicar o processo de coleta de dados, possuem propriedades de variáveis aleatórias com 0 médias.
Os resíduos observados são então usados para estimar subsequentemente a variabilidade nestes valores e para estimar a distribuição amostral dos parâmetros. Quando o erro padrão residual é exatamente 0, o modelo se ajusta perfeitamente aos dados (provavelmente devido ao sobreajuste). Se o erro padrão residual não puder ser mostrado como sendo significativamente diferente da variabilidade na resposta incondicional, então há pouca evidência para sugerir que o modelo linear tenha qualquer capacidade preditiva.
Comentários
- Isso pode ter sido respondido antes. Veja se esta pergunta fornece as respostas de que você precisa. [Interpretação da saída R ' s lm ()] [1] [1]: stats.stackexchange.com/questions/5135 / …
Resposta
Digamos que nós tem a seguinte tabela ANOVA (adaptada do comando R “s example(aov)
):
Df Sum Sq Mean Sq F value Pr(>F) Model 1 37.0 37.00 0.483 0.525 Residuals 4 306.3 76.57
Se você dividir a soma de quadrados de qualquer fonte de variação (modelo ou resíduos) por seus respectivos graus de liberdade, você obtém o quadrado médio. Particularmente para os resíduos:
$$ \ frac {306,3} {4} = 76,575 \ aproximadamente 76,57 $$
Então, 76,57 é o quadrado médio dos resíduos, ou seja, a quantidade de variação residual (após a aplicação do modelo) em sua variável de resposta.
O erro padrão residual que você “perguntou não é nada mais do que raiz quadrada positiva de o erro quadrático médio . No meu exemplo, o erro padrão residual seria igual a $ \ sqrt {76,57} $, ou aproximadamente 8,75. R produziria esta informação como “8,75 em 4 graus de liberdade”.
Comentários
- Votei positivamente na resposta de @AdamO porque como um pessoa que usa regressão diretamente na maioria das vezes, essa resposta foi a mais direta para mim. No entanto, agradeço esta resposta, pois ilustra a relação notacional / conceitual / metodológica entre ANOVA e regressão linear.
Resposta
Normalmente você terá um modelo de regressão parecido com este: $$ Y = \ beta_ {0} + \ beta_ {1} X + \ epsilon $$ onde $ \ epsilon $ é um termo de erro independente de $ X $.
Se $ \ beta_ {0} $ e $ \ beta_ {1} $ são conhecidos, ainda não podemos prever Y perfeitamente usando X devido a $ \ epsilon $. Portanto, usamos RSE como um valor de julgamento do Desvio Padrão de $ \ epsilon $.
O RSE é explicado de forma bastante clara em “Introdução ao aprendizado estatístico”.
Comentários
- Essa deve ser a resposta aceita. RSE é apenas uma estimativa do desvio padrão de $ \ epsilon $, ou seja, o resíduo. É ' também conhecido como desvio padrão residual (RSD) e pode ser definido como $ RSE = \ sqrt {\ frac {RSS} {(n-2)}} $ (por exemplo, consulte a página 66 do ISL).
- Para qualquer pessoa que ler o epub do ISL, você pode localizar a " página 66 " com ctrl-f " erro padrão residual. " (arquivos Epub não têm números de página verdadeiros).
Resposta
O erro padrão residual é $ \ sqrt {MSE} $ . O $ MSE $ é um estimador imparcial de $ \ sigma ^ 2 $ , onde $ \ sigma ^ 2 = Var (y | x) $ .
Para deixar mais claro a resposta de @Silverfish e @Waldir Leoncio.
Um resumo de todas as definições foi mostrado abaixo. Sempre se confundiu com esses termos, coloque-o aqui em vez de fazer um comentário para melhor formatação.
Tabela Anova de SLR / Linear Simples Regressão (DF é diferente para regressão múltipla):
Fonte | DF | Soma Sq | Média Sq | valor F |
---|---|---|---|---|
Regressão | $ 1 $ | $ SSR $ | $ MSR = \ frac {SSR} {1} $ | $ \ frac {MSR} {MSE} $ |
Residual | $ n – 2 $ | $ SSE $ | $ MSE = \ frac {SSE} {n – 2} $ | |
Total | |
$ SST $ |