Bayes-riskin ymmärtäminen

Estimaattoria arvioitaessa kaksi todennäköisesti yleisimmin käytettyä kriteeriä ovat maksimiriski ja Bayes-riski. Kysymykseni viittaa jälkimmäiseen:

Edellisen $ \ pi $: n mukainen Bayes-riski määritellään seuraavasti:

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

En oikein ymmärrä mitä edellinen $ \ pi $ tekee ja miten minun pitäisi tulkita se. Jos minulla on riskifunktio $ R (\ theta, \ hat {\ theta}) $ ja piirrän sen, otan intuitiivisesti sen alueen kriteerinä arvioidakseni kuinka ”vahva” riski on ohi kaikki mahdolliset $ \ theta $ -arvot. Mutta priorin osallistuminen tuhoaa jotenkin tämän intuition uudelleen, vaikka se onkin lähellä. Voisiko joku auttaa minua tulkitsemaan prioria?

Kommentit

  • En ymmärrä, kuinka riskifunktion piirtäminen voi olla intuitiivista, kun tarkastellaan useita parametreja: siinä asetuksessa toiminnot leikkaavat eivätkä tunnista parhaan " " estimaattori. Bayesin riski palauttaa yhden numeron jokaiselle estimaattorille ja mahdollistaa siten kaikkien estimaattien luokittelun torsit.

Vastaa

[Tässä on ote omasta oppikirjastani, The Bayesian Choice (2007) , joka kannattaa päätöksenteoreettista lähestymistapaa Bayesin analyysiin ja siten Bayesin riskin käyttämiseen.]

Kaikkein vähäpätöisimpiä asetuksia lukuun ottamatta on yleensä mahdotonta minimoida ($ d $: ssa) menetystoimintoa $ \ text {L} (\ theta, d) $, kun $ \ theta $ ei tunneta. Tehokkaan vertailukriteerin saamiseksi tappiofunktiosta usein esiintyvä lähestymistapa ehdottaa, että sen sijaan otetaan huomioon keskimääräinen tappio (tai usein esiintyvä riski ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ teksti {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *}, jossa $ \ delta (x) $ on päätössääntö, eli päätöksen allokointi kullekin lopputulokselle $ x \ sim f (x | \ theta) $ satunnaiskokeesta.

Funktiota $ \ delta $, alkaen $ {\ mathcal X} $, $ \ mathfrak {D} $, kutsutaan yleensä estimaattori (kun taas arvoa $ \ delta (x) $ kutsutaan nimellä $ \ theta $ arvio ). Kun sekaannusvaaraa ei ole, merkitsemme estimaattorien joukkoa $ \ mathfrak {D} $.

Frakististinen paradigma nojautuu tähän kriteeriin estimaattoreiden vertailussa ja mikäli mahdollista, parhaan estimaattorin valitseminen siten, että estimaattorit arvioidaan niiden pitkän aikavälin suorituskyvyn suhteen parametrin $ \ theta $ kaikille mahdollisille arvoille. Huomaa kuitenkin, että tähän lähestymistapaan liittyy useita vaikeuksia.

  1. Virheen (häviön) keskiarvo on eri $ x $ -arvot suhteessa tiheyteen $ f (x | \ theta ) $. Siksi näyttää siltä, että havaintoa $ x $ ei enää oteta huomioon. Riskikriteeri arvioi menettelyt niiden pitkän aikavälin suorituskyvyn perusteella eikä suoraan annetulle havainnolle, $ x $. Tällainen arviointi voi olla tyydyttävä tilastotieteilijälle, mutta se ei ole niin houkutteleva asiakkaalle, joka haluaa optimaalisen tuloksen datalleen $ x $, ei toisen ”s”: lle!
  2. Usein analysoitu päätösongelma olettaa implisiittisesti, että tämä ongelma ratkaistaan uudestaan ja uudestaan, jotta taajuusarvioinnilla olisi järkeä. Todellisuudessa $ R (\ theta, \ delta) $ on suunnilleen saman kokeen iid-toistojen keskimääräinen tappio, Suurten lukujen laki. Sekä filosofisista että käytännön syistä on kuitenkin paljon kiistoja kokeiden toistettavuuden käsitteestä (ks. Jeffreys (1961)). Ensinnäkin, jos tilastolle tulee uusia havaintoja, hänen tulisi hyödyntää niitä, ja tämä voi muuttaa kokeen suoritustapaa, kuten esimerkiksi lääketieteellisissä kokeissa.
  3. Menettelylle $ \ delta $ riski $ R (\ theta, \ delta ) $ on parametrin $ \ theta $ funktio. Siksi usein esiintyvä lähestymistapa ei indusoi kokonaismääriä soi menettelyjoukossa. Päätöksentekomenettelyjä on yleensä mahdotonta verrata tähän kriteeriin, koska kaksi ylittävää riskifunktiota estävät vertailun vastaavien estimaattorien välillä. Parhaimmillaan voidaan toivoa menettelystä $ \ delta_0 $, joka minimoi tasaisesti $ R (\ theta, \ delta) $, mutta tällaisia tapauksia esiintyy harvoin, ellei päätöksentekomenettelyjen tilaa ole rajoitettu. Parhaat menettelytavat saadaan vain rajoittamalla melko keinotekoisesti hyväksyttyjen menettelyjen sarjaa.

Esimerkki 2.4 – Harkitaan $ x_1 $ ja $ x_2 $, kaksi havaintoa kohteista $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ sisään \ mathbb {R}. $$ Kiinnostava parametri on $ \ theta $ (eli, $ \ mathfrak {D} = \ Theta $) ja estimaattorit $ \ delta $ arvioivat sen menetykseen $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ kutsutaan usein $ 0-1 $ loss iksi, mikä rankaisee arviointivirheitä niiden suuruudesta riippumatta $ 1 $: lla. Kun otetaan huomioon tietty \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ yli 2}, $$ sen riskifunktio on \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} Tämä laskelma osoittaa, että estimaattori $ \ delta_0 $ on oikea puolet ajasta. Itse asiassa tämä estimaattori on aina oikea, kun $ x_1 \ ne x_2 $, ja väärin muuten. Nyt \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $: lla on myös riskifunktio, joka on yhtä suuri kuin $ 0,5 $, samoin kuin $ \ delta_2 (x_1, x_2) = x_2-1 $. Siksi $ \ delta_0 $, $ \ delta_1 $ ja $ \ delta_2 $ ei voida luokitella 0-1 $ -tappion alle. $ \ blacktriangleright $

Päinvastoin, Bayesin lähestymistapa päätöksentekoteoriaan integroituu tilaan $ \ Theta $, koska $ \ theta $ on tuntematon sen sijaan, että integroitaisiin välilyöntiin $ {\ cal X} $ nimellä $ x $ tunnetaan. Se perustuu odotettavissa olevaan menetykseen \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *}, joka keskimäärin laskee virheen (ts. häviön) parametrin $ \ theta $ takajakauma, ehdollisesti havaittuun arvoon} $ x $. Kun otetaan huomioon $ x $, päätöksestä $ d $ johtuva keskimääräinen virhe on itse asiassa $ \ rho (\ pi, d | x) $. Takaperäinen odotettu tappio on siten funktion $ x $ funktio, mutta tämä riippuvuus ei ole hankala, toisin kuin riskin usein vastaava riippuvuus parametrista, koska $ x $, toisin kuin $ \ theta $, tunnetaan.

Kommentit

  • Joten olet Christian Robert. Olen tavannut George Casellan. Luulen, että olet julkaissut hänen kanssaan kirja (t), joista olen tietoinen.
  • +1 vastaukset eivät saa ' t paljon parempaa – loistava kirja muuten

vastaus

Lainaan James O: n klassista tilastopäätösten teoriaa Berger:

[…] Olemme jo todenneet, että päätöksentekosääntöjä arvioidaan niiden riskifunktioiden perusteella $ R (\ theta, \ delta) $. […] Kuten aiemmin todettiin, ongelmana on, että erilaisilla hyväksyttävillä päätöksentekosäännöillä on riskejä, jotka ovat parempia erilaisille $ \ theta $ ”: ille. Pelastukseksi tulee edellinen $ \ pi (\ theta) $, joka oletettavasti heijastaa, mitkä dollarit ovat todennäköisimpiä. Vaikuttaa kohtuulliselta painottaa $ R (\ theta, \ delta) $ $ \ pi (\ theta) $ ja keskiarvolla.

Kyllä voit arvioida $ R (\ theta, \ delta) $ jokaiselle $ \ theta $, mutta oletat epäsuorasti, että kukin mahdollinen $ \ theta $ arvo on yhtä todennäköinen. Bayesin skenaariossa valitset edellisen $ \ pi (\ theta) $, joka heijastaa todennäköisyyksiä havaita erilaisia $ \ theta $: ita, ja sisällytä tällaiset tiedot.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *