Je fais une régression linéaire avec une variable dépendante transformée. La transformation suivante a été effectuée pour que lhypothèse de normalité des résidus tiendrait. La variable dépendante non transformée était biaisée négativement, et la transformation suivante la rendue proche de la normale:
$$ Y = \ sqrt {50-Y_ {orig}} $$
où $ Y_ {orig} $ est la variable dépendante de léchelle dorigine.
Je pense quil est logique dutiliser une transformation sur les coefficients $ \ beta $ pour revenir à léchelle dorigine. En utilisant léquation de régression suivante,
$$ Y = \ sqrt {50-Y_ {orig}} = \ alpha + \ beta \ cdot X $$
et en fixant $ X = 0 $, nous avons
$$ \ alpha = \ sqrt {50-Y_ {orig}} = \ sqrt {50- \ alpha_ {orig}} $$
Et enfin ,
$$ \ alpha_ {orig} = 50- \ alpha ^ 2 $$
En utilisant la même logique, jai trouvé
$$ \ beta_ { orig} = \ alpha \ space (\ alpha-2 \ beta) + \ beta ^ 2 + \ alpha_ {orig} -50 $$
Maintenant, les choses fonctionnent très bien pour un modèle avec 1 ou 2 prédicteurs; les coefficients rétro-transformés ressemblent à ceux dorigine, ce nest que maintenant que je peux faire confiance aux erreurs standard. Le problème survient lors de linclusion dun terme dinteraction, tel que
$$ Y = \ alpha + X_1 \ beta_ {X_1} + X_2 \ beta_ {X_2} + X_1X_2 \ beta_ {X_1X_2} $$
Ensuite, les transformations en retour pour les $ \ beta $ ne sont pas si proches de celles de léchelle dorigine, et je ne sais pas pourquoi cela se produit. Je ne sais pas non plus si la formule trouvée pour le retour- la transformation dun coefficient bêta est utilisable telle quelle pour le 3ème $ \ beta $ (pour le terme dinteraction). Avant de me lancer dans lalgèbre folle, je pensais « demander conseil …
Commentaires
- Comment définissez-vous $ \ alpha_ {orig} $ et $ \ beta_ {orig} $?
- En tant que valeur de alpha et beta sur les échelles dorigine
- Mais quest-ce que cela signifie?
- Pour moi cela semble être un concept dénué de sens. Je suis daccord avec la réponse de gung '.
Réponse
Un problème est que vous « avez écrit
$$ Y = α + β⋅X $$
Cest un simple déterministe (cest-à-dire non aléatoire ) maquette. Dans ce cas, vous pourriez transformer les coefficients sur l’échelle d’origine, car ce n’est qu’une simple algèbre Mais, dans la régression habituelle, vous navez que $ E (Y | X) = α + β⋅X $, vous avez laissé le terme derreur hors de votre modèle. Si la transformation de $ Y $ en $ Y_ {orig} $ nest pas linéaire, vous pouvez avoir un problème puisque $ E \ big (f (X) \ big) ≠ f \ big (E (X) \ big) $ , en général. Je pense que cela peut avoir à voir avec la différence que vous « voyez.
Modifier: Notez que si la transformation est linéaire, vous pouvez retourner la transformation pour obtenir des estimations des coefficients sur léchelle dorigine, puisque lespérance est linéaire.
Commentaires
- + 1 pour expliquer pourquoi nous pouvons ' t retourner les bêtas.
Réponse
Je salue vos efforts ici, mais vous « aboyez dans le mauvais arbre. Vous ne retournez pas les bêtas de transformation. Votre modèle tient dans le monde des données transformées. Si vous voulez faire une prédiction, par exemple, vous retournez transformer $ \ hat {y} _i $, mais cest tout. Bien sûr, vous pouvez également obtenir un intervalle de prédiction en calculant les valeurs limites haute et basse, puis les reconvertir également, mais en aucun cas vous ne transformez les bêtas.
Commentaires
- Que faire du fait que les coefficients rétro-transformés sont très proches de ceux obtenus lors de la modélisation de la variable non transformée? Est-ce que ' t qui permet une certaine inférence sur léchelle dorigine?
- Je ne ' pas savoir, exactement. Cela peut dépendre dun certain nombre de choses. Ma première hypothèse est que vous ' avez de la chance avec vos premiers bêtas, mais votre chance sépuise. Je dois convenir w / @ mark999 que " les estimations que nous ' obtenons étaient les données originales adaptées à la régression linéaire " ne ' t na aucun sens; Jaurais aimé que cela & semble en quelque sorte rougir au premier abord, mais malheureusement, cela ne ' t. Et cela ne permet ' aucune inférence sur léchelle dorigine.
- @gung pour les transformations non linéaires (disons box cox): je peux rétrograder les valeurs ajustées de ainsi que les intervalles de prédiction, mais je peux ' transformer les bêtas ni les intervalles de coefficients pour les bêtas. Y a-t-il une limitation supplémentaire dont je devrais être conscient? btw, cest un sujet très intéressant, où puis-je obtenir une meilleure compréhension?
- @mugen, il est ' difficile de dire ce que vous devez savoir dautre de.Une chose à garder à lesprit est peut-être que la transformation arrière de y-hat vous donne la médiane conditionnelle alors que le y-hat non-transformé en arrière (bleck) est la moyenne conditionnelle. A part cela, ce matériel doit être couvert dans un bon manuel de régression.
- @mugen, ' êtes le bienvenu. Nhésitez pas à poser plus de questions via les mécanismes normaux (en cliquant sur
ASK QUESTION
); il y aura plus de ressources pour répondre, vous attirerez lattention de plus de CVers, & linformation sera mieux accessible pour la postérité.