Terugtransformatie van regressiecoëfficiënten

Ik voer een lineaire regressie uit met een getransformeerde afhankelijke variabele. De volgende transformatie werd uitgevoerd zodat de aanname van normaliteit van residuen de niet-getransformeerde afhankelijke variabele was negatief scheef, en de volgende transformatie maakte het bijna normaal:

$$ Y = \ sqrt {50-Y_ {orig}} $$

waarbij $ Y_ {orig} $ de afhankelijke variabele is op de oorspronkelijke schaal.

Ik denk dat het zinvol is om een transformatie op de $ \ beta $ coëfficiënten te gebruiken om terug te werken naar de oorspronkelijke schaal. Met behulp van de volgende regressievergelijking,

$$ Y = \ sqrt {50-Y_ {orig}} = \ alpha + \ beta \ cdot X $$

en door $ X = 0 $, we hebben

$$ \ alpha = \ sqrt {50-Y_ {orig}} = \ sqrt {50- \ alpha_ {orig}} $$

En tot slot ,

$$ \ alpha_ {orig} = 50- \ alpha ^ 2 $$

Met dezelfde logica vond ik

$$ \ beta_ { orig} = \ alpha \ space (\ alpha-2 \ beta) + \ beta ^ 2 + \ alpha_ {orig} -50 $$

Nu werken dingen heel goed voor een model met 1 of 2 voorspellers; de terug-getransformeerde coëfficiënten lijken op de originele, alleen nu kan ik de standaardfouten vertrouwen. Het probleem doet zich voor bij het opnemen van een interactieterm, zoals

$$ Y = \ alpha + X_1 \ beta_ {X_1} + X_2 \ beta_ {X_2} + X_1X_2 \ beta_ {X_1X_2} $$

Dan zijn de back-transformatie voor de $ \ beta $ s niet zo dicht bij die van de oorspronkelijke schaal, en ik “weet niet zeker waarom dat gebeurt. Ik weet ook niet zeker of de formule gevonden is voor back- het transformeren van een bèta-coëfficiënt is net zo bruikbaar als voor de 3e $ \ beta $ (voor de interactieterm). Voordat ik in gekke algebra ging, dacht ik dat ik “om advies zou vragen …

Reacties

  • Hoe definieer je $ \ alpha_ {orig} $ en $ \ beta_ {orig} $?
  • Als de waarde van alfa en bèta op de oorspronkelijke schalen
  • Maar wat betekent dat?
  • Voor mij dat lijkt een zinloos concept. Ik ben het eens met het antwoord van gung '.

Antwoord

Een probleem is dat je “hebt geschreven

$$ Y = α + β⋅X $$

Dat is een simpele deterministische (dwz niet-willekeurige ) model. In dat geval kunt u de coëfficiënten terug transformeren naar de oorspronkelijke schaal, aangezien het slechts een kwestie is van een aantal eenvoudige algebra Maar bij normale regressie heb je alleen $ E (Y | X) = α + β⋅X $; je hebt de foutterm uit je model gelaten. Als de transformatie van $ Y $ terug naar $ Y_ {orig} $ niet-lineair is, heeft u mogelijk een probleem sinds $ E \ big (f (X) \ big) ≠ f \ big (E (X) \ big) $ , in het algemeen. Ik denk dat dit te maken kan hebben met de discrepantie die u “ziet.

Bewerken: Merk op dat als de transformatie lineair is, kunt u de transformatie terugzetten om schattingen van de coëfficiënten op de oorspronkelijke schaal te krijgen, aangezien de verwachting lineair is.

Reacties

  • + 1 om uit te leggen waarom we ' de bètas niet terug kunnen transformeren.

Antwoord

Ik groet je inspanningen hier, maar je blaft in de verkeerde boom. U transformeert bètas niet terug. Uw model geldt in de getransformeerde gegevenswereld. Als u bijvoorbeeld een voorspelling wilt doen, transformeert u $ \ hat {y} _i $ terug, maar dat is het dan. Je kunt natuurlijk ook een voorspellingsinterval krijgen door de hoge en lage limietwaarden te berekenen en ze vervolgens ook weer om te zetten, maar in geen geval transformeer je de bètas terug.

Opmerkingen

  • Wat te zeggen over het feit dat de terug-getransformeerde coëfficiënten zeer dicht in de buurt komen van degene die zijn verkregen bij het modelleren van de niet-getransformeerde variabele? Is het niet mogelijk dat ' enige gevolgtrekkingen op de oorspronkelijke schaal mogelijk maken?
  • Ik weet ' niet precies. Het kan van een aantal dingen afhangen. Mijn eerste gok is dat je ' geluk hebt met je eerste paar bètas, maar dan is je geluk op. Ik ben het met @ mark999 eens dat " de schattingen die we ' zouden krijgen, de originele gegevens waren die geschikt waren voor lineaire regressie " heeft geen ' t echt zin; Ik wou dat het & deed, het lijkt op het eerste gezicht te blozen, maar helaas ' t. En het geeft geen ' licentie voor enige gevolgtrekkingen op de originele schaal.
  • @gung voor niet-lineaire transformaties (zeg box cox): ik kan aangepaste waarden terug transformeren als evenals voorspellingsintervallen, maar ik kan ' t bètas of coëfficiëntintervallen voor de bètas transformeren. Is er een aanvullende beperking waarvan ik op de hoogte moet zijn? trouwens, dit is een heel interessant onderwerp, waar kan ik een beter begrip krijgen?
  • @mugen, het is ' moeilijk te zeggen waar je nog meer op moet letten van.Een ding om in gedachten te houden is dat de achterwaartse transformatie van y-hat je de voorwaardelijke mediaan geeft, terwijl de niet-terug-getransformeerde (bleck) y-hat het voorwaardelijke gemiddelde is. Anders dan dat, zou dit materiaal in een goed regressieboek moeten worden behandeld.
  • @mugen, je bent ' welkom. Stel gerust meer vragen via de normale mechanismen (klik op ASK QUESTION); er zullen meer bronnen zijn om te antwoorden, je zult de aandacht krijgen van meer CVers, & de informatie zal beter toegankelijk zijn voor het nageslacht.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *