Sto eseguendo una regressione lineare con una variabile dipendente trasformata. La seguente trasformazione è stata eseguita in modo che lassunzione di normalità dei residui avrebbe resistito. La variabile dipendente non trasformata è stata distorta negativamente e la seguente trasformazione lha resa quasi normale:
$$ Y = \ sqrt {50-Y_ {orig}} $$
dove $ Y_ {orig} $ è la variabile dipendente sulla scala originale.
Penso che abbia senso usare qualche trasformazione sui coefficienti $ \ beta $ per tornare alla scala originale. Utilizzando la seguente equazione di regressione,
$$ Y = \ sqrt {50-Y_ {orig}} = \ alpha + \ beta \ cdot X $$
e correggendo $ X = 0 $, abbiamo
$$ \ alpha = \ sqrt {50-Y_ {orig}} = \ sqrt {50- \ alpha_ {orig}} $$
E infine ,
$$ \ alpha_ {orig} = 50- \ alpha ^ 2 $$
Utilizzando la stessa logica, ho trovato
$$ \ beta_ { orig} = \ alpha \ space (\ alpha-2 \ beta) + \ beta ^ 2 + \ alpha_ {orig} -50 $$
Ora le cose funzionano molto bene per un modello con 1 o 2 predittori; i coefficienti retro trasformati assomigliano a quelli originali, solo ora posso fidarmi degli errori standard. Il problema sorge quando si include un termine di interazione, come
$$ Y = \ alpha + X_1 \ beta_ {X_1} + X_2 \ beta_ {X_2} + X_1X_2 \ beta_ {X_1X_2} $$
Quindi le trasformazioni allindietro per $ \ beta $ s non sono così vicine a quelle della scala originale, e non sono sicuro del motivo per cui ciò accada. Non sono nemmeno sicuro che la formula trovata per la trasformazione di un coefficiente beta è utilizzabile come per il terzo $ \ beta $ (per il termine di interazione). Prima di addentrarmi nella pazza algebra, pensavo di “chiedere consiglio …
Commenti
- Come definisci $ \ alpha_ {orig} $ e $ \ beta_ {orig} $?
- Come il valore di alfa e beta sulle scale originali
- Ma cosa significa?
- Per me sembra un concetto privo di significato. Sono daccordo con la risposta di gung '.
Risposta
Un problema è che “hai scritto
$$ Y = α + β⋅X $$
Questoèun semplice deterministico (cioè non casuale ) modello. In tal caso, potresti trasformare i coefficienti sulla scala originale, poiché è solo questione di una semplice algebra Ma, nella normale regressione, hai solo $ E (Y | X) = α + β⋅X $; hai lasciato il termine di errore fuori dal tuo modello. Se la trasformazione da $ Y $ indietro a $ Y_ {orig} $ non è lineare, potresti avere un problema poiché $ E \ big (f (X) \ big) ≠ f \ big (E (X) \ big) $ , in generale. Penso che possa avere a che fare con la discrepanza che stai vedendo.
Modifica: Nota che se la trasformazione è lineare, puoi eseguire la trasformazione allindietro per ottenere stime dei coefficienti sulla scala originale, poiché laspettativa è lineare.
Commenti
- + 1 per spiegare perché possiamo ' t trasformare nuovamente i beta.
Risposta
Saluto i tuoi sforzi qui, ma “stai abbaiando sullalbero sbagliato. Non ripristini i beta di trasformazione. Il tuo modello è valido nel mondo dei dati trasformati. Se vuoi fare una previsione, ad esempio, trasformi $ \ hat {y} _i $, ma questo è tutto. Naturalmente, puoi anche ottenere un intervallo di previsione calcolando i valori limite alto e basso, e poi trasformarli anche indietro, ma in nessun caso trasformi i beta.
Commenti
- Cosa fare del fatto che i coefficienti di trasformazione inversa si avvicinano molto a quelli ottenuti modellando la variabile non trasformata? ' t questo non consente una certa inferenza sulla scala originale?
- Non ' lo so esattamente. Potrebbe dipendere da un numero qualsiasi di cose. La mia prima ipotesi è che ' stia diventando fortunato con il tuo primo paio di beta, ma poi la tua fortuna si esaurisce. Sono daccordo con @ mark999 che " le stime ' otteniamo erano i dati originali adatti alla regressione lineare " ' in realtà non ha alcun senso; Vorrei che lo facesse & sembra che a prima vista arrossisca, ma sfortunatamente non ' t. E non ' concede in licenza alcuna inferenza sulla scala originale.
- @gung per trasformazioni non lineari (ad esempio box cox): posso convertire i valori adattati come così come gli intervalli di previsione, ma posso ' t trasformare i beta né gli intervalli dei coefficienti per i beta. Cè qualche limitazione aggiuntiva di cui dovrei essere a conoscenza? a proposito, questo è un argomento molto interessante, dove posso ottenere una migliore comprensione?
- @mugen, è ' difficile dire cosaltro dovresti essere a conoscenza di.Una cosa forse da tenere a mente è che la trasformazione allindietro di y-hat ti dà la mediana condizionale mentre la y-hat non trasformata (bleck) è la media condizionale. Oltre a questo, questo materiale dovrebbe essere trattato in un buon libro di testo sulla regressione.
- @mugen, tu ' sei il benvenuto. Sentiti libero di porre altre domande tramite i normali meccanismi (facendo clic su
ASK QUESTION
); ci saranno più risorse per rispondere, attirerai lattenzione di più CVers, & le informazioni saranno più accessibili per i posteri.