Bayes regresszió: hogyan történik a szokásos regresszióhoz képest?

Van néhány kérdésem a Bayesi regresszióval kapcsolatban:

  1. Adott egy szokásos regresszió, mint $ y = \ beta_0 + \ beta_1 x + \ varepsilon $. Ha ezt Bayes regresszióvá akarom változtatni, szükségem van-e előzetes disztribúciókra mind a $ \ beta_0 $, mind a $ \ beta_1 $ esetében (vagy nem így működik)?

  2. A szokásos regresszióban megpróbálnánk minimalizálni a maradványokat, hogy egyetlen értékeket kapjunk a $ \ beta_0 $ és $ \ beta_1 $ értékekre. Hogyan történik ez Bayes regresszióban?

    Itt nagyon sokat küzdök:

    $$ \ text {posterior} = \ text {prior} \ times \ text {likelihood} $$

    A valószínűség a jelenlegi adatkészlet (tehát ez a regressziós paraméterem, de nem egyetlen értékként, hanem valószínűség-eloszlásként, nem?). Az előző egy korábbi kutatásból származik (mondjuk ki). Tehát megkaptam ezt az egyenletet:

    $$ y = \ beta_1 x + \ varepsilon $$

    $ \ beta_1 $ valószínûségem vagy hátsó kérdés (vagy ez csak teljesen rossz)?

    Egyszerűen nem tudom megérteni, hogyan alakul a szokásos regresszió Bayes-féle.

Válasz

Egyszerű lineáris regressziós modell

$$ y_i = \ alpha + \ beta x_i + \ varepsilon $$

írható a mögöttes valószínűségi modell szerint

$$ \ mu_i = \ alpha + \ beta x_i \\ y_i \ sim \ mathcal {N} (\ mu_i, \ sigma) $$

azaz a függő $ Y $ változó követi a normál eloszlást, amelyet átlagos $ \ mu_i $ paraméterez, vagyis a $ X $ lineáris függvénye, amelyet $ \ alpha, \ beta $ és standard deviáció jellemez $ \ sigma $. Ha egy ilyen modellt a hétköznapi legkisebb négyzetek segítségével becsül meg, akkor nem kell aggódnia a valószínűségi megfogalmazás miatt, mert a $ \ alpha, \ optimális értékeit keresi. a beta $ paramétereket az illesztett értékek négyzethibáinak minimalizálásával az előre jelzett értékekre. Másrészt meg lehet becsülni egy ilyen modellt a maximális valószínűség becslés segítségével, ahol a valószínűség függvény maximalizálásával keresné a paraméterek optimális értékeit

$$ \ DeclareMathOperator * {\ argmax} {arg \, max} \ argmax _ {\ alfa, \, \ béta, \, \ sigma} \ prod_ {i = 1} ^ n \ mathcal {N} (y_i; \ alpha + \ beta x_i, \ sigma) $$

ahol a $ \ mathcal {N} $ a normál eloszlás sűrűségfüggvénye, amelyet $ y_i $ ponton értékelnek, és amelyet $ \ alpha + \ beta eszközzel paramétereznek x_i $ és szórás $ \ sigma $.

Bayes-i megközelítésben a valószínűségfüggvény maximalizálása helyett korábbi eloszlást feltételezünk a paraméterekhez, és Bayes-tételt használunk

$$ \ text {posterior } \ propto \ text {likelihood} \ times \ text {prior} $$

A likelihood függvény megegyezik a fentiekkel, de milyen változásokat feltételez néhány korábbi disztribúció a becsült paraméterekhez $ \ alpha, \ beta, \ sigma $, és vegye be őket az egyenletbe.

$$ \ underbrace {f (\ alpha, \ beta, \ sigma \ Y, X)} _ {\ text {posterior}} \ propto \ underbrace {\ prod_ {i = 1} ^ n \ mathcal {N} (y_i \ mid \ alpha + \ beta x_i, \ sigma)} _ {\ text {likelihood}} \ ; \ underbrace {f _ {\ alpha} (\ alpha) \, f _ {\ beta} (\ beta) \, f _ {\ sigma} (\ sigma)} _ {\ text {priors}} $$

“Milyen disztribúciók?” egy másik kérdés, mivel korlátlan számú választási lehetőség van. A $ \ alpha, \ beta $ paramétereknél például feltételezheti a normál eloszlásokat, amelyeket néhány hiperparaméter vagy $ t $ -distribution , ha nehezebb farokot akarsz feltételezni, vagy egyenletes eloszlást, ha nem akarsz sok feltevést felhozni, de azt feltételezed, hogy a paraméterek a priori lehetnek “bármi az adott tartományban” stb. A $ \ sigma $ értékéhez feltételezned kell valamilyen elõzõ eloszlást, amely nulla fölött nagyobb, mivel a szórásnak pozitívnak kell lennie. Ez oda vezethet, hogy John K. Kruschke alább illusztrálja a modell megfogalmazását.

Bayesi lineáris regressziós modell megfogalmazása

(forrás: http://www.indiana.edu/~kruschke/BMLR/ )

Míg a legvalószínűbb, hogy az egyes paraméterekhez egyetlen optimális értéket keresett, addig Bayes-i megközelítésben a Bayes-tétel alkalmazásával a paraméterek posterior eloszlását kapja meg. A végső becslés az adatoktól és a priors tól származó információktól függ, de minél több információt tartalmaz az adat, annál kevésbé befolyásolja priors .

Figyelje meg, hogy az egységes priorok használatakor $ f (\ theta) \ propto 1 $ formát öltenek, miután ledobták a normalizáló állandókat. Ezáltal a Bayes-tétel csak a valószínűség függvényével arányos, így a hátsó eloszlás pontosan ugyanabban a pontban éri el a maximális valószínűség-becsléssel a maximumot.A következõképpen az egyenletes elõfizetõk becslése megegyezik a szokásos legkisebb négyzetek használatával, mivel a négyzetes hibák minimalizálása megfelel a normál valószínûség maximalizálásának .

A modell becsléséhez Bayes-féle megközelítésben egyes esetekben használhatja a konjugált priorokat , így a posterior terjesztés közvetlenül elérhető (lásd példát itt ). Az esetek túlnyomó többségében azonban a posterior terjesztés nem lesz közvetlenül elérhető, és a Markov Chain Monte Carlo módszereket kell használnia a modell (ellenőrizze ezt a példát a Metropolis-Hastings algoritmus használatáról a lineáris regresszió paramétereinek becsléséhez). Végül, ha csak a paraméterek pontbecslései érdekelnek, használhatja a maximum a posteriori becslést , azaz

$$ \ argmax_ { \ alpha, \, \ beta, \, \ sigma} f (\ alpha, \ beta, \ sigma \ Y közepe, X) $$

A logisztikai regresszió részletesebb leírását a Bayes-i logit modell – intuitív magyarázat? szál.

További információkért ellenőrizze a következő könyveket:

Kruschke, J. (2014). Bayesi adatelemzés: oktatóanyag R, JAGS és Stan. akadémiai sajtóval.

Gelman, A., Carlin, JB, Stern, HS és Rubin, DB (2004). Bayesi adatelemzés. Chapman & Hall / CRC.

Megjegyzések

  • +1 A kérdés megfogalmazásának módját figyelembe véve talán

hangsúlyozhatom inkább ez a filozófiai különbség: A szokásos legkisebb négyzetek és a maximális valószínűség becslésénél a ” kérdéssel kezdjük a (z) $ \ beta_i $ legjobb értékeit (talán későbbi felhasználásra) )? ” , míg a teljes bayesi megközelítésben a ” kérdéssel kezdjük. a $ \ beta_i $? ” ismeretlen értékekről, majd folytassa a maximális a posteriori vagy posterior átlag használatával, ha pontbecslésre van szükség.

  • +1. Még egy dolog, amelyre hasznos lehet rámutatni, hogy tisztázzuk a Bayes-féle és az OLS-megközelítés kapcsolatát, az, hogy az OLS-t hátsó átlagként lehet érteni lapos prior alatt (legalábbis amennyire megértem). Nagyon jó lenne, ha ezt részletezné egy kicsit a válaszában.
  • @amoeba it ‘ sa jó pont, én ‘ átgondolom. De másrészt nem akarom, hogy a válasz nyíltan hosszú legyen, ezért van értelme részletezni.
  • @amoeba FYI, én ehhez rövid megjegyzést fűzött.
  • Válasz

    Adott adatkészlet $ D = (x_1, y_1) , \ ldots, (x_N, y_N) $ ahol $ x \ in \ mathbb {R} ^ d, y \ in \ mathbb {R} $, egy bayesi lineáris regresszió a következő módon modellezi a problémát:

    Előző: $$ w \ sim \ mathcal {N} (0, \ sigma_w ^ 2 I_d) $$

    $ w $ vektor $ (w_1, \ ldots, w_d) ^ T $, tehát az előző eloszlás többváltozós Gauss-féle; és $ I_d $ a $ d \ szorzat d $ identitásmátrix.

    Valószínűség: $$ Y_i \ sim \ mathcal {N} (w ^ T x_i, \ sigma ^ 2) $$

    Feltételezzük, hogy $ Y_i \ perp Y_j | w, i \ neq j $

    Egyelőre a pontosságot fogjuk használni a variancia helyett: $ a = 1 / \ sigma ^ 2 $ és $ b = 1 / \ sigma_w ^ 2 $. Azt is feltételezzük, hogy a $ a, b $ ismeretes.

    Az elõzõ megadható $$ p (w) \ propto \ exp \ Big \ {- \ frac {b} {2} w ^ tw \ Big \} $$

    És a $$ p (D | w) \ propto \ exp \ Big \ {\ \ frac {a} {2} (y-Aw) valószínűsége ^ T (y-Aw) \ Nagy \} $$

    ahol $ y = (y_1, \ ldots, y_N) ^ T $ és $ A $ egy $ n \ szorzat d $ mátrix, ahol az i -th sor $ x_i ^ T $.

    Ezután a hátsó rész $$ p (w | D) \ propto p (D | w) p (w) $$

    Sok számítás után kiderül, hogy

    $$ p (w | D) \ sim \ mathcal {N} (w | \ mu, \ Lambda ^ {- 1}) $$

    ahol ($ \ Lambda $ a precíziós mátrix)

    $$ \ Lambda = a A ^ TA + b I_d $$ $ $ \ mu = a \ Lambda ^ {- 1} A ^ T y $$

    Vegye észre, hogy $ \ mu $ egyenlő a reguláris lineáris regresszió $ w_ {MAP} $ értékével, ez azért van, mert a Gauss-féle esetén az átlag megegyezik a móddal.

    Emellett készíthetünk néhány algebrát a $ \ mu $ felett, és megkapjuk a következő egyenlőséget ($ \ Lambda = a A ^ TA + bI_d $):

    $$ \ mu = (A ^ TA + \ frac {b} {a} I_d) ^ {- 1} A ^ T y $$

    és hasonlítsa össze a következővel: $ w_ {MLE} $:

    $$ w_ {MLE} = (A ^ TA) ^ {- 1} A ^ T y $$

    Az extra kifejezés a $ \ mu $-ban megegyezik a priorval. Ez hasonló a Ridge regresszió kifejezéséhez, annak a különleges esetnek a esetében, amikor $ \ lambda = \ frac {b} {a} $. A Ridge regresszió általánosabb, mert a technika nem megfelelő priorokat választhat (Bayes-i perspektívában).

    A prediktív posterior eloszláshoz:

    $$ p (y | x, D) = \ int p (y | x, D, w) p (w | x, D ) dw = \ int p (y | x, w) p (w | D) dw $$

    kiszámítható, hogy

    $$ y | x, D \ sim \ mathcal {N} (\ mu ^ Tx, \ frac {1} {a} + x ^ T \ Lambda ^ {- 1} x) $$

    Hivatkozás: Lunn et al. A BUGS könyv

    MCMC eszköz, például a JAGS / Stan használatához ellenőrizze Kruschke “s Bayesi adatelemzést

    Megjegyzések

    • Köszönöm jpneto. Úgy érzem, hogy ez egy remek válasz, de a matematika hiánya miatt még nem értem tudás. De mindenképpen újra el fogom olvasni, miután elsajátítottam néhány matematikai készséget.
    • Ez nagyon szép, de kissé ritka az a feltételezés, hogy a pontosság ismert. Isn ‘ t sokkal gyakoribb inverz Gamma-eloszlást feltételezni a varianciánál, azaz Gamma-eloszlást a pontosság érdekében?
    • +1. Tudna még kommentálni egy kicsit a ” A Ridge regresszió általánosabb, mert a technika nem megfelelő priorokat választhat ki “? Nem értem. ‘ gondolat: RR = Gaussian (megfelelő) a $ w $ előtt.
    • @amoeba: A Gauss prior a $ w \ sim N (0, \ lambda ^ {- 1} I_d) $, de $ \ lambda $ tud Legyen nulla, ami helytelen priorot eredményez, azaz az MLE-t eredményezi.
    • @DeltaIV: biztos, ha bizonytalanok vagyunk a paraméterekkel kapcsolatban, akkor ezt modellezhetjük egy priordal. Az ismert pontosság feltételezése az, hogy megkönnyítse az analitikai megoldás megtalálását. Általában ezek az analitikai megoldások nem lehetségesek, és közelítéseket kell használnunk, például MCMC-t vagy valamilyen variációs technikát.

    Vélemény, hozzászólás?

    Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük