Estou fazendo uma regressão linear com uma variável dependente transformada. A seguinte transformação foi feita de modo que a suposição de normalidade dos resíduos seria mantida. A variável dependente não transformada foi distorcida negativamente, e a seguinte transformação a tornou quase normal:
$$ Y = \ sqrt {50-Y_ {orig}} $$
onde $ Y_ {orig} $ é a variável dependente na escala original.
Acho que faz sentido usar alguma transformação nos coeficientes $ \ beta $ para trabalhar nosso caminho de volta à escala original. Usando a seguinte equação de regressão,
$$ Y = \ sqrt {50-Y_ {orig}} = \ alpha + \ beta \ cdot X $$
e fixando $ X = 0 $, temos
$$ \ alpha = \ sqrt {50-Y_ {orig}} = \ sqrt {50- \ alpha_ {orig}} $$
E finalmente ,
$$ \ alpha_ {orig} = 50- \ alpha ^ 2 $$
Usando a mesma lógica, encontrei
$$ \ beta_ { orig} = \ alpha \ space (\ alpha-2 \ beta) + \ beta ^ 2 + \ alpha_ {orig} -50 $$
Agora as coisas funcionam muito bem para um modelo com 1 ou 2 preditores; os coeficientes transformados de volta são semelhantes aos originais, só que agora posso confiar nos erros padrão. O problema surge ao incluir um termo de interação, como
$$ Y = \ alpha + X_1 \ beta_ {X_1} + X_2 \ beta_ {X_2} + X_1X_2 \ beta_ {X_1X_2} $$
Então, as transformações de retorno para $ \ beta $ s não são tão próximas das da escala original, e não tenho certeza por que isso acontece. Também não tenho certeza se a fórmula encontrada para transformar um coeficiente beta é utilizável como está para o terceiro $ \ beta $ (para o termo de interação). Antes de entrar na álgebra maluca, pensei em pedir um conselho …
Comentários
- Como você define $ \ alpha_ {orig} $ e $ \ beta_ {orig} $?
- Como o valor de alfa e beta nas escalas originais
- Mas o que isso significa?
- Para mim parece um conceito sem sentido. Concordo com a resposta de gung '.
Resposta
Um problema é que você escreveu
$$ Y = α + β⋅X $$
Isso é um determinístico simples (ou seja, não aleatório ) modelo. Nesse caso, você poderia transformar de volta os coeficientes na escala original, pois é apenas uma questão de álgebra simples . Mas, na regressão normal, você só tem $ E (Y | X) = α + β⋅X $; você deixou o termo de erro de fora do seu modelo. Se a transformação de $ Y $ de volta para $ Y_ {orig} $ não for linear, você pode ter um problema, pois $ E \ big (f (X) \ big) ≠ f \ big (E (X) \ big) $ , no geral. Acho que isso pode ter a ver com a discrepância que você está vendo.
Editar: Observe que se a transformação for linear, você pode transformar de volta para obter estimativas dos coeficientes na escala original, uma vez que a expectativa é linear.
Comentários
- + 1 para explicar por que podemos ' transformar os betas de volta.
Resposta
Saúdo seus esforços aqui, mas você está latindo para a árvore errada. Você não transforma betas de volta. Seu modelo se mantém no mundo dos dados transformados. Se você quiser fazer uma previsão, por exemplo, você transforma $ \ hat {y} _i $ de volta, mas é isso. Claro, você também pode obter um intervalo de predição calculando os valores de limite alto e baixo e, em seguida, transformá-los de volta também, mas em nenhum caso você transforma os betas de volta.
Comentários
- O que fazer com o fato de que os coeficientes transformados de volta ficam muito próximos daqueles obtidos ao modelar a variável não transformada? Isso não permite ' que permite alguma inferência na escala original?
- Não ' não sei exatamente. Pode depender de várias coisas. Meu primeiro palpite é que você ' está tendo sorte com seu primeiro par de betas, mas então sua sorte acaba. Tenho que concordar w / @ mark999 que " as estimativas que ' obteríamos eram os dados originais adequados para regressão linear " não ' não realmente faz sentido; Eu gostaria que sim & meio que parece à primeira vista, mas infelizmente não ' t. E não ' licencia quaisquer inferências na escala original.
- @gung para transformações não lineares (digamos, caixa cox): posso transformar novamente os valores ajustados como bem como intervalos de predição, mas posso ' t transformar betas nem intervalos de coeficiente para betas. Existe alguma limitação adicional da qual devo estar ciente? aliás, este é um tópico muito interessante, onde posso obter um melhor entendimento?
- @mugen, é ' difícil dizer o que mais você deve estar ciente de.Uma coisa a se ter em mente é que a transformação posterior do chapéu-y dá a você a mediana condicional, enquanto o chapéu-y não transformado reversamente (bleck) é a média condicional. Fora isso, este material deve ser coberto em um bom livro de regressão.
- @mugen, você ' é bem-vindo. Sinta-se à vontade para fazer mais perguntas por meio dos mecanismos normais (clicando em
ASK QUESTION
); haverá mais recursos para responder, você receberá a atenção de mais CVers, & a informação estará mais acessível para a posteridade.