A Bayes-kockázat megértése

Egy becslés értékelésénél a két valószínűleg leggyakrabban alkalmazott kritérium a maximális kockázat és a Bayes-kockázat. Kérdésem az utóbbira vonatkozik:

A korábbi $ \ pi $ alatti bayes-kockázatot a következőképpen határozzuk meg:

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

Nem egészen értem, amit az előző $ \ pi $ csinál és hogyan kell értelmeznem. Ha van egy $ R (\ theta, \ hat {\ theta}) $ kockázati függvényem és megrajzolom, akkor intuitív módon a területét venném kritériumnak, hogy megítéljem, mennyire “erős” a kockázat a $ \ theta $ összes lehetséges értéke. De a prior bevonása valahogy újra megsemmisíti ezt az intuíciót, bár szoros. Tudna valaki segíteni abban, hogyan értelmezzem a priorot?

Megjegyzések

  • Nem látom, mennyire intuitív lehet a kockázati függvény megrajzolása, amikor több paramétert figyelembe veszünk: ebben a beállításban a függvények keresztezik egymást, és nem azonosítják a " legjobb " becslő. A Bayes-kockázat egyetlen számot ad vissza az minden becsléshez, és így lehetővé teszi az összes becslés rangsorolását torok.

Válasz

[Íme egy részlet a saját tankönyvemből, A Bayes-i választás (2007) , amely a Bayes-elemzés döntéselméleti megközelítése mellett áll, tehát a Bayes-kockázat felhasználásával.]

A legtriviálisabb beállítások kivételével általában lehetetlen egységesen minimalizálni ($ d $ -ban) a $ \ text {L} (\ theta, d) $ veszteségfüggvényt, ha a $ \ theta $ ismeretlen. Annak érdekében, hogy a veszteségfüggvényből hatékony összehasonlítási kritériumot lehessen levezetni, a gyakoriságú megközelítés inkább az átlagos veszteség (vagy gyakorisági kockázat ) mérlegelését javasolja \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} ahol $ \ delta (x) $ a döntési szabály, azaz a döntés allokálása az egyes eredményekhez $ x \ sim f (x | \ theta) $ a véletlenszerű kísérletből.

A $ \ delta $ függvényt, $ $ \ mathcal X} $ -tól $ \ mathfrak {D} $ -ba, általában becslő (míg a $ \ delta (x) $ értéket $ \ theta $ becslésének hívják). Ha nem áll fenn az összetévesztés kockázata, akkor a becslők halmazát $ \ mathfrak {D} $ -val is jelöljük.

A gyakoriak paradigma erre a kritériumra támaszkodik a becslések összehasonlításához, és ha lehetséges, a legjobb becslő kiválasztása, azzal az indoklással, hogy a becslőket hosszú távú teljesítményük alapján értékelik a $ \ theta $ paraméter összes lehetséges értékére. Vegye figyelembe azonban, hogy ehhez a megközelítéshez több nehézség is társul.

  1. A hibát (veszteséget) a $ x $ különböző értékeire átlagolják, a $ f (x | \ theta sűrűségével arányosan). ) $. Ezért úgy tűnik, hogy a $ x $ megfigyelést már nem veszik figyelembe. A kockázati kritérium az eljárásokat hosszú távú teljesítményük alapján értékeli, és nem közvetlenül az adott megfigyeléshez, $ x $. Egy ilyen értékelés kielégítő lehet a statisztikus számára, de nem annyira vonzó egy olyan ügyfél számára, aki optimális eredményt akar $ x $ adataira, nem pedig egy másik “s” -ra!
  2. A döntési probléma implicit módon feltételezi, hogy ennek a problémának újra és újra megfelel, hogy a frekvenciaértékelésnek értelme legyen. Valójában a $ R (\ theta, \ delta) $ megközelítőleg az átlagos veszteség ugyanazon kísérlet iid ismétlései felett, a Nagy számok törvénye. Mind filozófiai, mind gyakorlati szempontból azonban sok vita merül fel a kísérletek megismételhetőségének fogalma felett (lásd Jeffreys (1961)). Egyrészt, ha új megfigyelések érkeznek a statisztikához, akkor használja ezeket, és ez módosíthatja a kísérlet végrehajtásának módját, például az orvosi vizsgálatok során.
  3. $ \ delta $ eljárás esetén a $ R kockázat (\ theta, \ delta ) A $ a $ \ theta $ paraméter függvénye. Ezért a gyakorta megközelítés nem indukál teljes ércet cseng az eljárások halmazán. Általában lehetetlen összehasonlítani a döntési eljárásokat ezzel a kritériummal, mivel két keresztezési kockázati funkció megakadályozza az összehasonlító becslések összehasonlítását. Legjobb esetben a $ \ delta_0 $ eljárásban reménykedhetünk, amely egységesen minimalizálja a $ R (\ theta, \ delta) $ értéket, de ilyen esetek ritkán fordulnak elő, hacsak a döntési eljárások területe nincs korlátozva. A legjobb eljárások csak az engedélyezett eljárások készletének meglehetősen mesterséges korlátozásával érhetők el.

2.4. Példa – Tekintsük a $ x_1 $ és a $ x_2 $ értékeket, két megfigyelést a $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ in \ mathbb {R}. $$ Az érdekes paraméter $ \ theta $ (azaz, $ \ mathfrak {D} = \ Theta $), és a becslők $ \ delta $ becslése alapján becsülik a $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ veszteséget. theta} (\ delta), a $$ gyakran $ 0-1 $ veszteség nek nevezi, amely a becslés hibáit, nagyságuktól függetlenül, 1 $ -kal bünteti. Figyelembe véve az adott \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2} értéket, a $$ kockázati funkciója \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} Ez a számítás azt mutatja, hogy a $ \ delta_0 $ becslő az idő felében helyes. Valójában ez a becslő mindig helyes, amikor $ x_1 \ ne x_2 $, és mindig téves. Most az \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ kockázati függvénye szintén $ 0,5 $, ugyanúgy, mint a $ \ delta_2 (x_1, x_2) = x_2-1 $. Ezért a $ \ delta_0 $, $ \ delta_1 $ és $ \ delta_2 $ nem sorolhatók a $ 0-1 $ veszteség alá. $ \ blacktriangleright $

Épp ellenkezőleg, a Bayes-féle döntéselméleti megközelítés integrálódik a $ \ Theta $ helyre, mivel a $ \ theta $ ismeretlen, ahelyett, hogy integrálódna a $ {\ cal X} $ helyre mivel $ x $ ismert. A hátsó várható veszteség \ begin {eqnarray *} \ rho (\ pi, d | x) & = \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *} amely átlagolja a hibát (azaz a veszteséget) a $ \ theta $ paraméter hátsó eloszlása, a megfigyelt érték függvényében} $ x $. A $ x $ értéket figyelembe véve a $ d $ döntésből adódó átlagos hiba valójában $ \ rho (\ pi, d | x) $. A hátsó várható veszteség tehát $ x $ függvénye, de ez a függőség nem zavaró, szemben a kockázat gyakoriságú függésétől a paramétertől, mivel a $ x $, ellentétben a $ \ theta $ -val, ismert.

Megjegyzések

  • Tehát te Christian Robert vagy. Találkoztam George Casellával. Azt hiszem, olyan könyvet (könyveket) tettél közzé vele, amelyekről tudom.
  • +1 válaszok <

ennél sokkal jobbak nem lesznek – remek könyv egyébként

Válasz

James O klasszikus statisztikai döntéselméletét idézve . Berger:

[…] Már kijelentettük, hogy a döntési szabályokat a $ R (\ theta, \ delta) $. […] A probléma, amint arra korábban rámutattunk, az az, hogy a különböző elfogadható döntési szabályoknak vannak kockázatai, amelyek jobbak a különböző $ \ theta $ “-ok számára. Megmentésképpen a korábbi $ \ pi (\ theta) $ jön, amely állítólag azt tükrözi, hogy melyik $ \ theta $ “fordulhat elő” valószínűleg. Nagyon ésszerűnek tűnik a (z) $ R (\ theta, \ delta) $ súlyozása $ \ pi (\ theta) $ és átlagának.

Igen ki tudja értékelni a $ R (\ theta, \ delta) $ értéket minden $ \ theta $ esetében, de akkor implicit módon feltételezné, hogy a $ \ theta $ minden lehetséges értéke egyformán valószínű. Bayesi szcenárióban az előző $ \ pi (\ theta) $ értéket választja, amely tükrözi a különböző $ \ theta $ “megfigyelésének valószínűségét, és ilyen információkat tartalmaz.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük