Jeg laver en lineær regression med en transformeret afhængig variabel. Følgende transformation blev udført, så antagelsen om normalitet af rester ville holde. Den ikke-transformerede afhængige variabel var negativt skæv, og følgende transformation gjorde det tæt på normalt:
$$ Y = \ sqrt {50-Y_ {orig}} $$
hvor $ Y_ {orig} $ er den afhængige variabel på den oprindelige skala.
Jeg synes, det er fornuftigt at bruge en vis transformation på $ \ beta $ -koefficienterne til at arbejde os tilbage til den oprindelige skala. Ved hjælp af følgende regressionsligning,
$$ Y = \ sqrt {50-Y_ {orig}} = \ alpha + \ beta \ cdot X $$
og ved at fastsætte $ X = 0 $, vi har
$$ \ alpha = \ sqrt {50-Y_ {orig}} = \ sqrt {50- \ alpha_ {orig}} $$
Og til sidst ,
$$ \ alpha_ {orig} = 50- \ alpha ^ 2 $$
Ved hjælp af den samme logik fandt jeg
$$ \ beta_ { orig} = \ alpha \ space (\ alpha-2 \ beta) + \ beta ^ 2 + \ alpha_ {orig} -50 $$
Nu fungerer tingene meget godt for en model med 1 eller 2 forudsigere; de bagtransformerede koefficienter ligner de oprindelige, kun nu kan jeg stole på standardfejlene. Problemet opstår, når der inkluderes et interaktionsudtryk, såsom
$$ Y = \ alpha + X_1 \ beta_ {X_1} + X_2 \ beta_ {X_2} + X_1X_2 \ beta_ {X_1X_2} $$
Derefter er back-transformation for $ \ beta $ ikke så tæt på dem fra den oprindelige skala, og jeg er ikke sikker på, hvorfor det sker. Jeg er også usikker på, om formlen findes til back- transformering af en beta-koefficient kan anvendes ligesom for 3. $ \ beta $ (for interaktionsudtrykket). Før jeg gik ind i skør algebra, tænkte jeg, at jeg ville bede om råd …
Kommentarer
- Hvordan definerer du $ \ alpha_ {orig} $ og $ \ beta_ {orig} $?
- Som værdien af alfa og beta på de originale skalaer
- Men hvad betyder det?
- For mig det virker som et meningsløst koncept. Jeg er enig med gung ' s svar.
Svar
Et problem er, at du har skrevet
$$ Y = α + β⋅X $$
Det er en simpel deterministisk (dvs. ikke-tilfældig ) model. I så fald kunne du transformere koefficienterne på den oprindelige skala, da det bare er et spørgsmål om en enkel algebra Men i almindelig regression har du kun $ E (Y | X) = α + β⋅X $; du har efterladt fejludtrykket ud af din model. Hvis transformation fra $ Y $ tilbage til $ Y_ {orig} $ ikke er lineær, kan du have et problem, da $ E \ big (f (X) \ big) ≠ f \ big (E (X) \ big) $ , generelt. Jeg tror, det kan have at gøre med den uoverensstemmelse, du ser.
Rediger: Bemærk, at hvis transformationen er lineær, kan du transformere tilbage for at få estimater af koefficienterne på den oprindelige skala, da forventningen er lineær.
Kommentarer
- + 1 til forklaring af hvorfor vi kan ' t tilbage transformere betas.
Svar
Jeg hilser din indsats her, men du bjeffer op på det forkerte træ. Du kan ikke transformere beta tilbage. Din model holder i den transformerede dataverden. Hvis du f.eks. Vil forudsige, forvandler du $ $ hat {y} _i $ tilbage, men det er det. Selvfølgelig kan du også få et forudsigelsesinterval ved at beregne de høje og lave grænseværdier og derefter transformere dem også tilbage, men i intet tilfælde transformerer du betas tilbage.
Kommentarer
- Hvad skal man gøre med det faktum, at de bagtransformerede koefficienter kommer meget tæt på dem, der opnås, når man modellerer den ikke-transformerede variabel? Ved ' t, der muliggør en vis slutning på den oprindelige skala?
- Jeg ved ' ikke nøjagtigt. Det kan afhænge af et hvilket som helst antal ting. Mit første gæt er, at du ' bliver heldig med dit første par betas, men så løber dit held ud. Jeg er enig med w / @ mark999 i, at " de estimater, som vi ' d får, var de originale data, der var egnede til lineær regression " giver ' ikke nogen mening; Jeg ville ønske, at det gjorde &, det ser ud til at det rødmest synes, men desværre ' t. Og det ' t licenserer nogen slutninger på den oprindelige skala.
- @gung til ikke-lineære transformationer (siger box cox): Jeg kan tilbage transformere monterede værdier som såvel som forudsigelsesintervaller, men jeg kan ' t transformere betas eller koefficientintervaller for betas. Er der nogen yderligere begrænsning, jeg skal være opmærksom på? btw, dette er et meget interessant emne, hvor kan jeg få en bedre forståelse?
- @mugen, det ' er svært at sige hvad du ellers skal være opmærksom på af.En ting måske at huske på er, at y-hatens bagtransformation giver dig den betingede median , mens den un-back-transformerede (bleck) y-hat er det betingede gennemsnit. Bortset fra det, skal dette materiale være dækket af en god regressionsbog.
- @mugen, du ' er velkommen. Du er velkommen til at stille flere spørgsmål via de normale mekanismer (klikke
ASK QUESTION
); der vil være flere ressourcer til at besvare, du vil få opmærksomhed fra flere CVer, & oplysningerne bliver bedre tilgængelige for eftertiden.