Tillbaka-transformation av regressionskoefficienter

Jag gör en linjär regression med en transformerad beroende variabel. Följande transformation gjordes så att antagandet om normalitet av restprodukter Den otransformerade beroende variabeln var negativt skev, och följande omvandling gjorde den nära normal:

$$ Y = \ sqrt {50-Y_ {orig}} $$

där $ Y_ {orig} $ är den beroende variabeln på den ursprungliga skalan.

Jag tycker att det är vettigt att använda en viss transformation på $ \ beta $ -koefficienterna för att arbeta oss tillbaka till den ursprungliga skalan. Med följande regressionsekvation,

$$ Y = \ sqrt {50-Y_ {orig}} = \ alpha + \ beta \ cdot X $$

och genom att fixa $ X = 0 $, vi har

$$ \ alpha = \ sqrt {50-Y_ {orig}} = \ sqrt {50- \ alpha_ {orig}} $$

Och slutligen ,

$$ \ alpha_ {orig} = 50- \ alpha ^ 2 $$

Med samma logik hittade jag

$$ \ beta_ { orig} = \ alpha \ space (\ alpha-2 \ beta) + \ beta ^ 2 + \ alpha_ {orig} -50 $$

Nu fungerar saker mycket bra för en modell med 1 eller 2 prediktorer; de bakomvandlade koefficienterna liknar de ursprungliga, bara nu kan jag lita på standardfelen. Problemet uppstår när en interaktionsterm inkluderas, till exempel

$$ Y = \ alpha + X_1 \ beta_ {X_1} + X_2 \ beta_ {X_2} + X_1X_2 \ beta_ {X_1X_2} $$

Då är backtransformationen för $ \ beta $ inte så nära de från originalskalan, och jag är inte säker på varför det händer. Jag är också osäker på om formeln hittades för back- Omvandla en beta-koefficient är användbar liksom för den tredje $ \ beta $ (för interaktionsperioden). Innan jag gick in i galen algebra tänkte jag att jag skulle be om råd …

Kommentarer

  • Hur definierar du $ \ alpha_ {orig} $ och $ \ beta_ {orig} $?
  • Som värdet av alfa och beta på de ursprungliga skalorna
  • Men vad betyder det?
  • För mig det verkar som ett meningslöst koncept. Jag håller med gung ' s svar.

Svar

Ett problem är att du har skrivit

$$ Y = α + β⋅X $$

Det är en enkel deterministisk (dvs. icke-slumpmässig ) modell. I så fall kan du omvandla koefficienterna på den ursprungliga skalan, eftersom det bara handlar om en enkel algebra Men i vanligt regression har du bara $ E (Y | X) = α + β⋅X $; du har lämnat feltermen utanför din modell. Om omvandlingen från $ Y $ tillbaka till $ Y_ {orig} $ är icke-linjär kan du ha ett problem eftersom $ E \ big (f (X) \ big) ≠ f \ big (E (X) \ big) $ , i allmänhet. Jag tror att det kan ha att göra med skillnaden du ser.

Redigera: Observera att om transformationen är linjär kan du backa om transformationen för att få uppskattningar av koefficienterna på den ursprungliga skalan, eftersom förväntningen är linjär.

Kommentarer

  • + 1 för att förklara varför vi kan ' t tillbaka förvandla betorna.

Svar

Jag hälsar dina ansträngningar här, men du bjälkar upp fel träd. Du återställer inte beta. Din modell håller i den transformerade datavärlden. Om du till exempel vill göra en förutsägelse, transformerar du tillbaka $ \ hat {y} _i $, men det är det. Självklart kan du också få ett förutsägningsintervall genom att beräkna de höga och låga gränsvärdena, och sedan tillbaka transformera dem också, men i inget fall gör du tillbaka transformera betorna.

Kommentarer

  • Vad ska man göra med att de bakomvandlade koefficienterna kommer mycket nära de som erhålls när man modellerar den omvandlade variabeln? Inte ' t som möjliggör viss slutsats på originalskalan?
  • Jag vet inte ' exakt. Det kan bero på ett antal saker. Min första gissning är att du ' har tur med ditt första par beta, men då tar din tur slut. Jag måste hålla med w / @ mark999 om att " de uppskattningar som vi ' d får var de ursprungliga data som lämpar sig för linjär regression " menar ' t egentligen någon mening; Jag önskar att det gjorde & det verkar som att det först rodnade, men tyvärr ' t. Och det ' t licensierar inga slutsatser på den ursprungliga skalan.
  • @gung för icke linjära transformationer (säg box cox): Jag kan tillbaka transformera monterade värden som samt förutsägelsesintervall, men jag kan ' inte omvandla betor eller koefficientintervall för betorna. Finns det några ytterligare begränsningar jag borde vara medveten om? btw, det här är ett mycket intressant ämne, var kan jag få en bättre förståelse?
  • @mugen, det ' är svårt att säga vad mer du borde vara medveten om av.En sak som man kan tänka på är att ryggtransformationen av y-hat ger dig den villkorliga medianen medan den icke-ryggtransformerade (bleck) y-hatten är det villkorliga medelvärdet. Bortsett från det bör detta material täckas i en bra lärobok för regression.
  • @mugen, du ' är välkommen. Ställ gärna fler frågor via de normala mekanismerna (klicka ASK QUESTION); det kommer att finnas fler resurser för att svara, du kommer att få uppmärksamhet från fler CV-användare, & informationen blir bättre tillgänglig för eftertiden.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *