Interprétation des poids bêta positifs et négatifs dans léquation de régression

Jai reçu cette question élémentaire par e-mail:

Dans une équation de régression, ai-je raison de penser que si la valeur bêta est positive, la variable dépendante a augmenté en réponse à une plus grande utilisation de la variable indépendante, et si elle est négative, la variable dépendante a diminué en réponse à une augmentation de la variable indépendante – similaire à la façon dont vous lisez les corrélations?

Commentaires

  • @Jeromy, par poids bêta, vous entendez les coefficients de régression linéaire?
  • @mp Par convention, les bêtas sont les coefficients lorsque toutes les variables ont été standardisées. (Cela devrait instantanément les rendre reconnaissables comme des corrélations partielles, répondant à la question … 🙂
  • @ayush Je me rends compte que cest une question élémentaire, alors nhésitez pas à ne pas y répondre vous-même. Cependant, je pense que le site peut bénéficier davoir des questions à différents niveaux de difficulté; et je ‘ souhaiterais ajouter ma propre réponse après avoir donné aux autres une chance de répondre qui ramène à quelques questions générales.
  • Bon point, @Jeromy. Je ‘ suis sûr que @ayush naurait pas fourni un tel commentaire (qui pourrait facilement être interprété à tort comme impoli ou pire) était la même question posée par un nouvel utilisateur. Laissez ‘ prendre ceci comme un témoignage de votre haute réputation ici et voir si lune des réponses aide à éclairer votre correspondant.
  • @whuber. bon point. En tant que consultant statistique en psychologie, je reçois parfois des questions par mail qui sont assez élémentaires. Ma situation idéale est dencourager ces étudiants à poster directement ici. En général, je préfère répondre à ces questions sur ce site plutôt que denvoyer une réponse par e-mail à létudiant. De cette façon, ma réponse peut être une ressource continue pour Internet, et dautres peuvent trouver une réponse encore meilleure.

Réponse

Pour expliquer la signification du coefficient de régression, jai trouvé lexplication suivante très utile. Supposons que nous ayons la régression

$$ Y = a + bX $$

Disons $ X $ changements par $ \ Delta X $ et $ Y $ changements par $ \ Delta Y $ . Puisque nous avons la relation linéaire que nous avons

$$ Y + \ Delta Y = a + b (X + \ Delta X) $$

Puisque $ Y = a + bX $ nous obtenons cela

$$ \ Delta Y = b \ Delta X. $$

Il est facile de voir que si $ b $ positif, alors un changement positif de $ X $ se traduira par changement positif en $ Y $. Si $ b $ est négatif, alors un changement positif de $ X $ entraînera un changement négatif de $ Y $.

Remarque: Jai traité cette question comme une question pédagogique, cest-à-dire fournir une explication simple.

Note 2: Comme indiqué par @whuber, cette explication part de lhypothèse importante que la relation est valable pour toutes les valeurs possibles de $ X $ et $ Y $. En réalité, cest une hypothèse très restrictive, par contre lexplication est valable pour les petites valeurs de $ \ Delta X $, puisque le théorème de Taylor dit que les relations qui peuvent être exprimées comme des fonctions différentiables (et cest une hypothèse raisonnable à faire ) sont linéaires localement.

Commentaires

  • … en supposant que le comportement est vraiment linéaire sur toute la plage des valeurs $ X $! (Une réponse plus prudente pourrait formuler la même idée en termes de changements moyens et éviter également tout indice suggérant que la relation est causale.)
  • @whuber, je savais que mettre le mot le meilleur nétait pas un choix judicieux 🙂 Merci pour votre commentaire, ‘ vais essayer de reformuler la réponse.
  • @mp  » Le meilleur  » nest ‘ pas forcément un problème. ‘ jessaie juste de vous donner du fil à retordre 🙂 (Mais  » induire  » a attiré mon attention …) Si vous ‘ êtes vraiment après le  » meilleur  » explication, rappelez-vous quun point commun de confusion parmi les non-initiés est comment interpréter les coefficients dinteraction: après tout, vous pouvez ‘ t varier indépendamment (disons) $ XY $; vous le faites en faisant varier $ X $ ou $ Y $ ou les deux. Donc, une explication qui gère cette situation serait la bienvenue.
  • @whuber, oui induire était un mauvais choix. Je ‘ vais laisser lexplication des termes dinteraction pour quelquun dautre 🙂
  • @mp re Note 2: Ah, Taylor ‘ s Théorème! Mais les données réelles ne sont pas ‘ même continues, beaucoup moins différenciables. Le modèle pourrait profiter de ces propriétés mathématiques. Surtout dans les explications pour les non-initiés, il peut être intéressant de distinguer le comportement du modèle ‘ du comportement que nous attendons des données.De plus, le théorème de Taylor ‘ en dit peu sur la plage de valeurs $ X $ sur laquelle la quasi-linéarité est valable. Le modèle de régression dit que cette plage est infinie!

Réponse

Comme @gung le note, il existe différentes conventions concernant la signification de ($ \ beta $, cest-à-dire « beta »). Dans la littérature statistique plus large, le bêta est souvent utilisé pour représenter des coefficients non normalisés. Cependant, en psychologie (et peut-être dans dautres domaines), il y a souvent une distinction entre b pour non standardisé et bêta pour les coefficients standardisés. Cette réponse suppose que le contexte indique que la version bêta représente des coefficients standardisés:

  • Pondérations bêta: Comme @whuber la mentionné, les « poids bêta » sont par convention des coefficients de régression normalisés (voir wikipedia sur le coefficient normalisé ). Dans ce contexte, $ b $ est souvent utilisé pour les coefficients non standardisés et $ \ beta $ est souvent utilisé pour les coefficients standardisés.

  • Interprétation de base : un poids bêta pour une variable prédictive donnée est la différence prévue dans la variable de résultat en unités standard pour une augmentation dun écart type sur la variable prédictive donnée contenant tous les autres prédicteurs constante.

  • Ressource générale sur la régression multiple: La question est élémentaire et implique que vous devriez lire des informations générales sur la régression multiple ( voici une description élémentaire dAndy Field ).

  • Causalité: Faites attention à un langage comme « la variable dépendante a augmenté en réponse à une plus grande utilisation de la variable indépendante » . Un tel langage a des connotations causales. Les poids bêta en eux-mêmes ne sont pas suffisants pour justifier une interprétation causale. Vous auriez besoin de preuves supplémentaires pour justifier une interprétation causale.

Commentaires

  • +1 Notez, cependant, quil sont des conventions différentes en ce qui concerne lutilisation de termes dans les statistiques. Par exemple, ‘ beta ‘ / $ \ beta $ est souvent utilisé pour désigner le vrai paramètre qui régit le processus de génération de données, & ‘ beta hat ‘ / $ \ hat \ beta $ fait référence à lestimation de la pente calculée dans votre échantillon. Dans ce cas, ils nimpliquent pas que les variables ont été standardisées en premier. Cette utilisation variable est malheureuse, mais néanmoins réelle. Il est important dêtre clair sur la façon dont les termes sont utilisés quand on les rencontre, plutôt que de supposer que tout le monde veut dire la même chose.
  • @gung bon point; Jai ‘ mis à jour ma réponse pour lintégrer.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *