Interpretação de pesos beta positivos e negativos na equação de regressão

Recebi esta pergunta elementar por e-mail:

Em uma equação de regressão estou correto em pensar que se o valor beta for positivo, a variável dependente aumentou em resposta ao maior uso da variável independente, e se negativa, a variável dependente diminuiu em resposta a um aumento em a variável independente – semelhante à maneira como você lê as correlações?

Comentários

  • @Jeromy, por pesos beta você quer dizer os coeficientes de regressão linear?
  • @mp Convencionalmente, betas são os coeficientes quando todas as variáveis foram padronizadas. (Isso deve torná-los instantaneamente reconhecíveis como correlações parciais, respondendo à pergunta … 🙂
  • @ayush Eu sei que é uma pergunta elementar, então fique à vontade para não responder você mesmo. No entanto, acho que o site pode se beneficiar com perguntas em vários níveis de dificuldade; e eu ' gostaria de adicionar minha própria resposta depois de dar aos outros a chance de responder que aborda alguns problemas gerais.
  • Bom ponto, @Jeromy. Eu ' tenho certeza de que @ayush não teria fornecido tal comentário (que poderia facilmente ser mal interpretado como rude ou pior) se a mesma pergunta fosse feita por um novo usuário. Vamos ' s tomar isso como um testemunho de sua alta reputação aqui e ver se alguma das respostas ajuda a esclarecer seu correspondente.
  • @whuber. bom ponto. Sendo um consultor de estatística em psicologia, às vezes recebo perguntas por e-mail que são bastante elementares. Minha situação ideal é encorajar esses alunos a postar diretamente aqui. Em geral, prefiro responder a essas perguntas neste site em vez de enviar uma resposta por e-mail ao aluno. Dessa forma, minha resposta pode ser um recurso contínuo para a Internet e outros podem apresentar uma resposta ainda melhor.

Resposta

Ao explicar o significado do coeficiente de regressão, achei a explicação a seguir muito útil. Suponha que temos a regressão

$$ Y = a + bX $$

Digamos que $ X $ muda em $ \ Delta X $ e $ Y $ muda em $ \ Delta Y $ . Como temos a relação linear, temos

$$ Y + \ Delta Y = a + b (X + \ Delta X) $$

Como $ Y = a + bX $, obtemos isso

$$ \ Delta Y = b \ Delta X. $$

Tendo isso, é fácil ver que se $ b $ positivo, então a mudança positiva em $ X $ resultará em variação positiva em $ Y $. Se $ b $ for negativo, a variação positiva em $ X $ resultará em variação negativa em $ Y $.

Observação: Tratei esta questão como pedagógica, ou seja, forneço uma explicação simples.

Nota 2: Conforme apontado por @whuber, esta explicação pressupõe que o relacionamento se mantém para todos os valores possíveis de $ X $ e $ Y $. Na realidade esta é uma suposição muito restritiva, por outro lado, a explicação é válida para pequenos valores de $ \ Delta X $, uma vez que o teorema de Taylor diz que relações que podem ser expressas como funções diferenciáveis (e esta é uma suposição razoável para ) são lineares localmente.

Comentários

  • … assumindo que o comportamento é verdadeiramente linear em toda a gama de valores $ X $! (Uma resposta mais cautelosa pode expressar a mesma ideia em termos de mudanças médias e também evitar qualquer sugestão de sugerir que a relação é causal.)
  • @whuber, eu sabia que colocar o a palavra melhor não foi uma escolha sábia 🙂 Obrigado pelo seu comentário, ' tentarei reformular a resposta.
  • @mp " Melhor " não ' necessariamente um problema. Eu ' estou apenas tentando dificultar a você 🙂 (Mas " induzir " chamou minha atenção …) Se você ' realmente deseja o " melhor " explicação, lembre-se de que um ponto comum de confusão entre os não iniciados é como interpretar os coeficientes de interação: afinal, você pode ' t variar independentemente (digamos) $ XY $; você faz isso variando $ X $ ou $ Y $ ou ambos. Portanto, uma explicação que trate dessa situação seria muito bem-vinda.
  • @whuber, sim induzir foi uma escolha ruim. Eu ' deixarei a explicação dos termos de interação para outra pessoa 🙂
  • @mp re Nota 2: Ah, Taylor ' Teorema! Mas os dados reais não são ' nem mesmo contínuos, muito menos diferenciáveis. O modelo pode gostar dessas propriedades matemáticas. Especialmente em explicações para os não iniciados, pode valer a pena distinguir o comportamento do modelo ' do comportamento que esperamos dos dados.Além disso, o teorema de Taylor ' diz pouco sobre a faixa de valores $ X $ sobre a qual a quase linearidade se mantém. O modelo de regressão diz que esse intervalo é infinito!

Resposta

Como observa @gung, existem várias convenções relacionadas o significado de ($ \ beta $, ou seja, “beta”). Na literatura estatística mais ampla, beta é freqüentemente usado para representar coeficientes não padronizados. No entanto, em psicologia (e talvez em outras áreas), muitas vezes há uma distinção entre b para coeficientes não padronizados e beta para coeficientes padronizados. Esta resposta assume que o contexto indica que beta está representando coeficientes padronizados:

  • Pesos beta: Como @whuber mencionou, “pesos beta” são, por convenção, coeficientes de regressão padronizados (consulte a wikipedia sobre coeficiente padronizado ). Neste contexto, $ b $ é freqüentemente usado para coeficientes não padronizados e $ \ beta $ é freqüentemente usado para coeficientes padronizados.

  • Interpretação básica : um peso beta para uma determinada variável preditora é a diferença prevista na variável de resultado em unidades padrão para um aumento de desvio padrão na variável preditora dada contendo todos os outros preditores constante.

  • Recurso geral sobre regressão múltipla: A questão é elementar e sugere que você deve ler algum material geral sobre regressão múltipla ( aqui está uma descrição elementar de Andy Field ).

  • Causalidade: Tenha cuidado com linguagem como “a variável dependente aumentou em resposta ao maior uso da variável independente” . Essa linguagem tem conotações causais. Os pesos beta por si só não são suficientes para justificar uma interpretação causal. Você exigiria evidências adicionais para justificar uma interpretação causal.

Comentários

  • +1 Observe, entretanto, que há são convenções diferentes com respeito ao uso de termos em estatísticas. Por exemplo, ' beta ' / $ \ beta $ é frequentemente usado para denotar o verdadeiro parâmetro que governa o processo de geração de dados, & ' beta hat ' / $ \ hat \ beta $ refere-se à estimativa de inclinação calculada em sua amostra. Nesse caso, eles não implicam que as variáveis tenham sido padronizadas em primeiro lugar. Esse uso variável é lamentável, mas mesmo assim é real. É importante deixar claro como os termos estão sendo usados quando os encontramos, em vez de assumir que todos significam a mesma coisa.
  • @gung bom argumento; Eu ' atualizei minha resposta para incorporar isso.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *