Při hodnocení odhadce jsou dvěma pravděpodobně nejčastěji používanými kritérii maximální riziko a Bayesovo riziko. Moje otázka se týká druhé z nich:
Riziko Bayes v rámci předchozího $ \ pi $ je definováno takto:
$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$
Nechápu, co dělá předchozí $ \ pi $ a jak to mám interpretovat. Pokud mám rizikovou funkci $ R (\ theta, \ hat {\ theta}) $ a vykreslím ji, intuitivně bych vzal její oblast jako kritérium k posouzení, jak „silné“ riziko skončilo všechny možné hodnoty $ \ theta $. Zapojení předchozího však jaksi ničí tuto intuici, i když je blízké. Může mi někdo pomoci, jak interpretovat předchozí?
Komentáře
- Nevidím, jak intuitivní může být vykreslení rizikové funkce, když vezmeme v úvahu několik parametrů: v tomto nastavení se funkce protínají a neidentifikují " nejlepší " odhad. Bayesovo riziko vrací jedno číslo pro každého odhadce, a proto umožňuje umístění všech odhadů tors.
Odpověď
[Zde je výňatek z mé vlastní učebnice, The Bayesian Choice (2007) , která argumentuje ve prospěch přístupu založeného na teoretickém rozhodování k Bayesianově analýze, tedy použití Bayesova rizika.]
S výjimkou nejtriviálnějších nastavení je obecně nemožné jednotně minimalizovat (v $ d $) ztrátu funkce $ \ text {L} (\ theta, d) $, když $ \ theta $ není známa. Aby bylo možné odvodit efektivní srovnávací kritérium z funkce ztráty, častý přístup navrhuje místo toho zvážit průměrnou ztrátu (nebo časté riziko ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *}, kde $ \ delta (x) $ je rozhodovací pravidlo, tj. přidělení rozhodnutí každému výsledku $ x \ sim f (x | \ theta) $ z náhodného experimentu.
Funkce $ \ delta $, z $ {\ mathcal X} $ v $ \ mathfrak {D} $, se obvykle nazývá odhadce (zatímco hodnota $ \ delta (x) $ se nazývá odhad z $ \ theta $). Pokud neexistuje riziko záměny, označíme množinu odhadů také pomocí $ \ mathfrak {D} $.
Časté paradigma se při porovnávání odhadů spoléhá na toto kritérium a, je-li to možné, vybrat nejlepší odhadce, důvodem je, že odhady jsou hodnoceny na základě jejich dlouhodobého výkonu pro všechny možné hodnoty parametru $ \ theta $. Všimněte si však, že s tímto přístupem je spojeno několik obtíží.
- Chyba (ztráta) je zprůměrována pro různé hodnoty $ x $ úměrně hustotě $ f (x | \ theta ) $. Zdá se tedy, že pozorování $ x $ se dále nebere v úvahu. Kritérium rizika hodnotí postupy na základě jejich dlouhodobého výkonu, nikoli přímo pro dané pozorování, $ x $. Takové hodnocení může být pro statistika uspokojivé, ale není tak přitažlivé pro klientku, která chce pro své údaje optimální výsledky $ x $, ne pro hodnocení jiných!
- Častá analýza rozhodovací problém implicitně předpokládá, že tento problém bude splněn znovu a znovu, aby vyhodnocení frekvence mělo smysl. $ R (\ theta, \ delta) $ je přibližně průměrná ztráta přes iid opakování stejného experimentu, podle Zákon velkých čísel. Avšak z filozofického i praktického hlediska existuje spousta kontroverzí ohledně samotného pojmu opakovatelnosti experimentů (viz Jeffreys (1961)). Zaprvé, pokud statistikovi přijdou nová pozorování, měla by využijte je a mohlo by to změnit způsob provádění experimentu, například v lékařských studiích.
- U procedury $ \ delta $ je riziko $ R (\ theta, \ delta ) $ je funkcí parametru $ \ theta $. Častý přístup proto neindukuje celkovou ordu soubor postupů. Je obecně nemožné porovnat rozhodovací postupy s tímto kritériem, protože dvě funkce křížení rizik brání srovnání mezi odpovídajícími odhady. V nejlepším případě lze doufat v postup $ \ delta_0 $, který jednotně minimalizuje $ R (\ theta, \ delta) $, ale k takovým případům dochází zřídka, pokud není omezen prostor rozhodovacích postupů. Nejlepší postupy lze získat pouze umělým omezením souboru povolených postupů.
Příklad 2.4 – Zvažte $ x_1 $ a $ x_2 $, dvě pozorování z $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ in \ mathbb {R}. $$ Parametr zájmu je $ \ theta $ (tj., $ \ mathfrak {D} = \ Theta $) a odhadují jej odhadci $ \ delta $ pod ztrátou $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ se často nazývá $ 0-1 $ ztráta , což penalizuje chyby v odhadu bez ohledu na jejich velikost o $ 1 $. Vzhledem k konkrétnímu \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ nad 2}, $$ je jeho riziková funkce \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} Tento výpočet ukazuje, že odhad $ \ delta_0 $ je správná polovina času. Ve skutečnosti je tento odhad vždy správný, když $ x_1 \ ne x_2 $, a jinak vždy špatný. Nyní má \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ také rizikovou funkci rovnou 0,5 $, stejně jako $ \ delta_2 (x_1, x_2) = x_2-1 $. Proto $ \ delta_0 $, $ \ delta_1 $ a $ \ delta_2 $ nelze zařadit pod ztrátu $ 0-1 $. $ \ blacktriangleright $
Naopak Bayesovský přístup k teorii rozhodování se integruje do prostoru $ \ Theta $, protože $ \ theta $ není znám, místo toho, aby se integroval do prostoru $ {\ cal X} $ jak je známo $ x $. Spoléhá se na zadní očekávanou ztrátu \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *}, který průměruje chybu (tj. ztrátu) podle zadní rozdělení parametru $ \ theta $, podmíněně na pozorované hodnotě} $ x $. Vzhledem k $ x $ je průměrná chyba vyplývající z rozhodnutí $ d $ ve skutečnosti $ \ rho (\ pi, d | x) $. Zadní očekávaná ztráta je tedy funkcí $ x $, ale tato závislost není problémová, na rozdíl od časté závislosti rizika na parametru, protože $ x $, na rozdíl od $ \ theta $, je známa.
Komentáře
- Takže jste Christian Robert. Potkal jsem George Casellu. Myslím, že jste s ním publikovali knihy, o kterých vím ..
- +1 odpovědi, ' se nedostanete mnohem lépe – skvělá kniha mimochodem
odpověď
Cituji klasickou teorii statistického rozhodování Jamese O . Berger:
[…] Již jsme uvedli, že pravidla rozhodování budou hodnocena z hlediska jejich rizikových funkcí $ R (\ theta, \ delta) $. […] Problém, jak bylo uvedeno výše, spočívá v tom, že různá přípustná pravidla rozhodování budou mít rizika, která jsou lepší pro různé $ \ theta $ „s. Na záchranu přichází předchozí $ \ pi (\ theta) $, které údajně odráží, které $ \ theta $ jsou „pravděpodobné“, které se vyskytnou. Zdá se velmi rozumné „vážit“ $ R (\ theta, \ delta) $ pomocí $ \ pi (\ theta) $ a průměr.
Ano můžete vyhodnotit $ R (\ theta, \ delta) $ pro každý $ \ theta $, ale pak byste implicitně předpokládali, že každá možná hodnota $ \ theta $ je stejně pravděpodobná. V Bayesiánském scénáři vyberete předchozí $ \ pi (\ theta) $, které odráží pravděpodobnost pozorování různých $ \ theta $ „a zahrnou tyto informace.