Zrozumienie ryzyka Bayesa

Podczas oceny estymatora dwa prawdopodobnie najczęściej używane kryteria to maksymalne ryzyko i ryzyko Bayesa. Moje pytanie odnosi się do tego drugiego:

Ryzyko bayesa w ramach wcześniejszych $ \ pi $ jest zdefiniowane następująco:

$$ B _ {\ pi} (\ hat {\ theta }) = \ int R (\ theta, \ hat {\ theta}) \ pi (\ theta) d \ theta $$

Nie rozumiem, co robi poprzedni $ \ pi $ i jak powinienem to zinterpretować. Jeśli mam funkcję ryzyka $ R (\ theta, \ hat {\ theta}) $ i wykreślam ją, intuicyjnie wziąłbym jej obszar jako kryterium oceny, jak „silne” jest już ryzyko wszystkie możliwe wartości $ \ theta $. Ale zaangażowanie przeora znowu niszczy tę intuicję, chociaż jest blisko. Czy ktoś może mi pomóc, jak zinterpretować poprzedni?

Komentarze

  • Nie widzę intuicyjnego wykreślania funkcji ryzyka, biorąc pod uwagę kilka parametrów: w tym ustawieniu funkcje przecinają się i nie identyfikują " najlepszego ". Ryzyko Bayesa zwraca jedną liczbę dla każdego estymatora, a zatem umożliwia uszeregowanie wszystkich estym tors.

Odpowiedź

[Oto fragment mojego własnego podręcznika, Bayesian Choice (2007) , który przemawia za podejściem opartym na teorii decyzji do analizy bayesowskiej, a zatem za wykorzystaniem ryzyka Bayesa.]

Z wyjątkiem najbardziej trywialnych ustawień, generalnie niemożliwe jest jednolite zminimalizowanie (w $ d $) funkcji straty $ \ text {L} (\ theta, d) $, gdy $ \ theta $ jest nieznane. W celu wyprowadzenia skutecznego kryterium porównania z funkcji straty, podejście częstego proponuje zamiast tego rozważenie średniej straty (lub częstego ryzyka ) \ begin {eqnarray *} R ( \ theta, \ delta) & = & \ mathbb {E} _ \ theta \ lbrack \ text {L} (\ theta, \ delta (x)) \ rbrack \\ & = & \ int _ {\ cal X} \ text {L} (\ theta , \ delta (x)) f (x | \ theta) \, dx, \ end {eqnarray *} gdzie $ \ delta (x) $ jest regułą decyzyjną, tj. przypisaniem decyzji do każdego wyniku $ x \ sim f (x | \ theta) $ z losowego eksperymentu.

Funkcja $ \ delta $, z $ {\ mathcal X} $ w $ \ mathfrak {D} $, jest zwykle nazywana estymator (podczas gdy wartość $ \ delta (x) $ nazywa się oszacowanie z $ \ theta $). Gdy nie ma ryzyka pomyłki, oznaczamy również zbiór estymatorów przez $ \ mathfrak {D} $.

Paradygmat częstości opiera się na tym kryterium przy porównywaniu estymatorów i, jeśli to możliwe, aby wybrać najlepszy estymator, rozumując, że estymatory są oceniane na podstawie ich długoterminowej wydajności dla wszystkich możliwych wartości parametru $ \ theta $. Zauważ jednak, że istnieje kilka trudności związanych z tym podejściem.

  1. Błąd (strata) jest uśredniany dla różnych wartości x $ proporcjonalnie do gęstości $ f (x | \ theta ) $. Dlatego wydaje się, że obserwacja $ x $ nie jest dalej brana pod uwagę. Kryterium ryzyka ocenia procedury pod kątem ich długoterminowej wydajności, a nie bezpośrednio dla danej obserwacji, $ x $. Taka ocena może być satysfakcjonująca dla statystyki, ale nie jest tak atrakcyjna dla klienta, który chce optymalnych wyników dla swoich danych $ x $, a nie innych!
  2. Częsta analiza problem decyzyjny zakłada w sposób dorozumiany, że problem ten będzie się powtarzał raz po raz, aby ocena częstotliwości miała sens. Rzeczywiście, $ R (\ theta, \ delta) $ jest w przybliżeniu średnią stratą w stosunku do iid powtórzeń tego samego eksperymentu, zgodnie z Prawo wielkich liczb. Jednak zarówno ze względów filozoficznych, jak i praktycznych, istnieje wiele kontrowersji dotyczących samego pojęcia powtarzalności eksperymentów (patrz Jeffreys (1961)). Po pierwsze, jeśli nowe spostrzeżenia przyjdą do statystyki, powinna z nich skorzystać, a to może zmienić sposób przeprowadzania eksperymentu, na przykład w badaniach medycznych.
  3. W przypadku procedury $ \ delta $ ryzyko $ R (\ theta, \ delta ) $ jest funkcją parametru $ \ theta $. Dlatego podejście często nie wywołuje całkowitego zamówienia pierścień na zestawie zabiegów. Zasadniczo nie jest możliwe porównanie procedur decyzyjnych z tym kryterium, ponieważ dwie krzyżujące się funkcje ryzyka uniemożliwiają porównanie odpowiednich estymatorów. W najlepszym przypadku można liczyć na procedurę $ \ delta_0 $, która równomiernie minimalizuje $ R (\ theta, \ delta) $, ale takie przypadki występują rzadko, chyba że przestrzeń procedur decyzyjnych jest ograniczona. Najlepsze procedury można uzyskać jedynie poprzez raczej sztuczne ograniczenie zbioru autoryzowanych procedur.

Przykład 2.4 – Rozważmy $ x_1 $ i $ x_2 $, dwie obserwacje z $$ P _ {\ theta} (x = \ theta-1) = P _ {\ theta} (x = \ theta + 1) = 0,5, \ qquad \ theta \ in \ mathbb {R}. $$ Interesującym parametrem jest $ \ theta $ (tj., $ \ mathfrak {D} = \ Theta $) i jest szacowane przez estymatory $ \ delta $ pod stratą $$ \ text {L} (\ theta, \ delta) = 1- \ mathbb {I} _ {\ theta} (\ delta), $$ często nazywa się stratą 0-1 $, co powoduje karę za błędy oszacowania, niezależnie od ich wielkości, o 1 $. Biorąc pod uwagę konkretną \ est $$ \ delta_0 (x_1, x_2) = {x_1 + x_2 \ over 2}, $$ jej funkcją ryzyka jest \ begin {eqnarray *} R (\ theta, \ delta_0) & = & 1-P _ {\ theta} (\ delta_0 (x_1, x_2) = \ theta) \\ & = & 1-P _ {\ theta} (x_1 \ ne x_2) = 0,5. \ end {eqnarray *} To obliczenie pokazuje, że estymator $ \ delta_0 $ jest poprawny w połowie przypadków. W rzeczywistości to oszacowanie jest zawsze poprawne, gdy $ x_1 \ ne x_2 $, i zawsze jest błędne w przeciwnym razie. Teraz \ est \ $ \ delta_1 (x_1, x_2) = x_1 + 1 $ ma również funkcję ryzyka równą 0,5 $, podobnie jak $ \ delta_2 (x_1, x_2) = x_2-1 $. Dlatego $ \ delta_0 $, $ \ delta_1 $ i $ \ delta_2 $ nie mogą być sklasyfikowane pod stratą 0-1 $. $ \ blacktriangleright $

Wręcz przeciwnie, Bayesowskie podejście do teorii decyzji integruje w przestrzeni $ \ Theta $, ponieważ $ \ theta $ jest nieznane, zamiast całkowania w przestrzeni $ {\ cal X} $ jako $ x $ jest znane. Opiera się na późniejszej oczekiwanej stracie \ begin {eqnarray *} \ rho (\ pi, d | x) & = & \ mathbb {E} ^ \ pi [L (\ theta, d) | x] \\ & = & \ int _ {\ Theta} \ text {L} (\ theta, d) \ pi (\ theta | x) \, d \ theta, \ end {eqnarray *}, który uśrednia błąd (tj. stratę) zgodnie z późniejszy rozkład parametru $ \ theta $, warunkowo na obserwowanej wartości} $ x $. Biorąc pod uwagę $ x $, średni błąd wynikający z decyzji $ d $ to w rzeczywistości $ \ rho (\ pi, d | x) $. Późniejsza oczekiwana strata jest więc funkcją $ x $, ale ta zależność nie jest kłopotliwa, w przeciwieństwie do częstej zależności ryzyka od parametru, ponieważ $ x $, w przeciwieństwie do $ \ theta $, jest znane.

Komentarze

  • A więc jesteś chrześcijaninem Robertem. Poznałem Georgea Casellę. Wydaje mi się, że opublikowałeś z nim książki, o których jestem świadomy …
  • +1 odpowiedzi nie ' nie będą lepsze – świetna książka przy okazji

Odpowiedź

Cytując klasyczną teorię decyzji statystycznych Jamesa O . Berger:

[…] Powiedzieliśmy już, że reguły decyzyjne będą oceniane pod kątem ich funkcji ryzyka $ R (\ theta, \ delta) $. […] Problem, jak wskazano wcześniej, polega na tym, że różne dopuszczalne reguły decyzyjne będą wiązały się z ryzykiem, które jest lepsze dla różnych $ \ theta $ „s. Na ratunek przychodzi wcześniejsze $ \ pi (\ theta) $, przypuszczalnie odzwierciedla, które $ \ theta $ „s są najbardziej prawdopodobne. Wydaje się bardzo rozsądne „zważyć” $ R (\ theta, \ delta) $ przez $ \ pi (\ theta) $ i średnią.

Tak możesz oszacować $ R (\ theta, \ delta) $ dla każdego $ \ theta $, ale wtedy domyślnie założysz, że każda możliwa wartość $ \ theta $ jest równie prawdopodobna. W scenariuszu bayesowskim wybierasz wcześniejszą $ \ pi (\ theta) $, która odzwierciedla prawdopodobieństwo zaobserwowania różnych $ \ theta $ „i dołączasz takie informacje.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *