Pomóż mi zrozumieć wcześniejsze i późniejsze rozkłady bayesowskie

W grupie uczniów jest 2 z 18 które są leworęczne. Znajdź późniejsze rozmieszczenie uczniów leworęcznych w populacji przy założeniu, że wcześniej nie mieli informacji. Podsumuj wyniki. Według literatury 5–20% osób jest leworęcznych. Weź te informacje pod uwagę w swoim poprzednim i oblicz nowe późniejsze.

Wiem, że należy tutaj użyć dystrybucji beta . Po pierwsze, gdy $ \ alpha $ i $ \ beta $ mają wartości 1? Równanie, które znalazłem w materiale na posterior to

$$ \ pi (r \ vert Y) \ propto r ^ {(Y + −1)} \ razy (1 – r) ^ {(N − Y + −1)} \\ $$

$ Y = 2 $ , $ N = 18 $

Dlaczego $ r $ w równanie? ( $ r $ oznacza odsetek osób leworęcznych). Nie wiadomo, jak więc może być w tym równaniu? Wydaje mi się śmieszne, aby obliczyć $ r $ na podstawie $ Y $ i użyć tego $ r $ w równaniu dającym $ r $ . Cóż, w przypadku próbki $ r = 2/18 $ wynik wyniósł 0,0019 $ . $ f $ czy mam z tego wywnioskować?

Równanie dające oczekiwaną wartość $ R $ podane znane $ Y $ i $ N $ działały lepiej i dały mi 0,15 $ , co brzmi właściwie. Równanie to $ E (r | X, N, α, β) = (α + X) / (α + β + N) $ z wartością 1 $ przypisany do $ α $ i $ β $ . Jakie wartości powinienem podać $ α $ i $ β $ , aby uwzględnić wcześniejsze informacje?

Niektóre wskazówki byłyby bardzo mile widziane. Ogólny wykład na temat wcześniejszych i późniejszych dystrybucji również nie zaszkodziłby (mam niejasne rozumienie, czym one są, ale tylko niejasne). Pamiętaj również, że nie jestem zbyt zaawansowanym statystykiem (właściwie jestem politologiem w moim głównym zawodzie) tak zaawansowanym matematyka prawdopodobnie przeleci mi nad głową.

Komentarze

  • Czy spojrzałeś na to pytanie i odpowiedź ?
  • Wyrażenie ” Znajdź późniejszy rozkład uczniów leworęcznych ” nie ma sensu. Zmienne losowe mają rozkłady, a ” uczniowie leworęczni ” nie ' ta rv Przypuszczam, że zamierzasz ” Znajdź późniejszy rozkład proporcji uczniowie leworęczni „. ' Ważne jest, aby nie przemilczać takich szczegółów, ale jasno o czym właściwie ' rozmawiasz.
  • Czytając twoje pytanie, wydaje mi się, że twój problem nie jest ' t tyle statystyk Bayesa, ile po prostu zrozumienie rozkładów prawdopodobieństwa; ' s zawsze , że argument funkcji rozkładu (lub funkcji prawdopodobieństwa, jak tam masz) jest funkcją nieznanego (losowego zmienna). To ' jest całkowicie ich celem.
  • Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .

Odpowiedź

Pozwól mi najpierw wyjaśnić, czym jest poprzedni koniugat . Następnie wyjaśnię analizy bayesowskie na Twoim konkretnym przykładzie. Statystyka bayesowska obejmuje następujące kroki:

  1. Zdefiniuj wcześniejszą dystrybucję , która obejmuje subiektywne przekonania o parametrze (w twoim przykładzie interesującym parametrem jest proporcja lewej handers). Przeor może być „nieinformacyjny” lub „informacyjny” (ale nie ma poprzedniego, który nie zawierałby informacji, zobacz dyskusję tutaj ).
  2. Zbierz dane.
  3. Zaktualizuj swój poprzedni rozkład danymi za pomocą twierdzenia Bayesa, aby uzyskać rozkład późniejszy. Rozkład późniejszy to rozkład prawdopodobieństwa, który reprezentuje zaktualizowane przekonania dotyczące parametru po obejrzeniu danych.
  4. Przeanalizuj późniejszy rozkład i podsumuj go (średnia, mediana, SD, kwantyle, …).

Podstawą wszystkich statystyk bayesowskich jest twierdzenie Bayesa, które jest

$$ \ mathrm {posterior} \ propto \ mathrm {prior} \ times \ mathrm {likelihood} $$

W twoim przypadku prawdopodobieństwo jest dwumianowe. Jeśli poprzedni i późniejszy rozkład należą do tej samej rodziny, poprzedni i późniejszy nazywane są dystrybucjami sprzężonymi . Rozkład beta jest koniugatem poprzedzającym, ponieważ późniejszy jest również rozkładem beta. Mówimy, że dystrybucja beta jest rodziną sprzężoną dla prawdopodobieństwa dwumianowego . Analizy koniugatów są wygodne, ale rzadko występują w rzeczywistych problemach. W większości przypadków późniejszą dystrybucję należy znaleźć numerycznie za pomocą MCMC (używając Stan, WinBUGS, OpenBUGS, JAGS, PyMC lub innego programu).

Jeśli poprzedni rozkład prawdopodobieństwa nie scala się do 1, nazywa się go niewłaściwym wcześniejszym, jeśli całkuje do 1, nazywa się go właściwym wcześniejszym. W większości przypadków , niewłaściwy pri lub nie stanowi większego problemu dla analiz bayesowskich. Dystrybucja a posteriori musi jednak być właściwa, tj. Tylna musi integrować się do 1.

Te praktyczne zasady wynikają bezpośrednio z natury procedury analizy bayesowskiej:

  • Jeśli poprzedni nie zawiera informacji, późniejszy jest w dużym stopniu zdeterminowany przez dane (późniejszy jest oparty na danych)
  • Jeśli poprzedni ma charakter informacyjny, późniejszy jest mieszaniną poprzedniego i dane
  • Im więcej informacji zawiera poprzednie, tym więcej danych potrzebujesz, aby „zmienić” swoje przekonania, że tak powiem, ponieważ późniejsze są w dużym stopniu zależne od wcześniejszych informacji
  • Jeśli mają dużo danych, dane zdominują późniejszą dystrybucję (będą przytłaczać poprzednie)

Doskonały przegląd niektórych możliwych „informacyjnych” i „nieinformacyjnych” wyprzedzeń dla dystrybucji beta można można znaleźć w tym poście .

Powiedz, że Twoja poprzednia wersja beta to $ \ mathrm {Beta} (\ pi_ {LH} | \ alpha, \ beta) $ gdzie $ \ pi_ {LH} $ to odsetek leworęcznych. Aby określić wcześniejsze parametry $ \ alpha $ i $ \ beta $ , warto znać średnią i wariancja dystrybucji beta (na przykład, jeśli chcesz, aby Twoja poprzednia miała określoną średnią i wariancję). Średnia to $ \ bar {\ pi} _ {LH} = \ alpha / (\ alpha + \ beta) $ . Zatem ilekroć $ \ alpha = \ beta $ , średnia wynosi 0,5 $ . Wariancja dystrybucji beta to $ \ frac {\ alpha \ beta} {(\ alpha + \ beta) ^ {2} (\ alpha + \ beta + 1)} $ . Teraz wygodną rzeczą jest to, że możesz pomyśleć o $ \ alpha $ i $ \ beta $ jak poprzednio zaobserwowane (pseudo-) dane, a mianowicie $ \ alpha $ leworęcznych i $ \ beta $ right- rozdaje z (pseudo-) próbki o rozmiarze $ n_ {eq} = \ alpha + \ beta $ . Rozkład $ \ mathrm {Beta} (\ pi_ {LH} | \ alpha = 1, \ beta = 1) $ jest jednolity (wszystkie wartości klasy $ \ pi_ {LH} $ są równie prawdopodobne) i jest odpowiednikiem obserwacji dwóch osób, z których jedna jest leworęczna, a druga praworęczna.

Późniejsza dystrybucja beta to po prostu $ \ mathrm {Beta} (z + \ alpha, N – z + \ beta) $ , gdzie $ N $ to rozmiar próbki, a $ z $ to liczba leworęcznych w próbce. Zatem późniejsza średnia $ \ pi_ {LH} $ wynosi $ (z + \ alpha) / (N + \ alpha + \ beta) $ . Aby znaleźć parametry późniejszej dystrybucji beta, po prostu dodajemy $ z $ po lewej stronie do $ \ alpha $ i $ Nz $ po prawej stronie do $ \ beta $ . Odchylenie a posteriori to $ \ frac {(z + \ alpha) (N-z + \ beta)} {(N + \ alpha + \ beta) ^ {2} (N + \ alpha + \ beta + 1)} $ . Zwróć uwagę, że bardzo pouczająca poprzednia prowadzi również do mniejszej wariancji późniejszej dystrybucji (poniższe wykresy dobrze ilustrują ten punkt).

W twoim przypadku $ z = 2 $ i $ N = 18 $ , a Twoim przeorem jest mundur, który nie zawiera informacji, więc $ \ alpha = \ beta = 1 $ . Twoja późniejsza dystrybucja to zatem $ Beta (3, 17) $ . Średnia późniejsza to $ \ bar {\ pi} _ {LH} = 3 / (3 + 17) = 0,15 $ .Oto wykres przedstawiający wcześniejsze, prawdopodobieństwo danych i późniejsze

Wcześniejsze, prawdopodobieństwo danych i późniejszy rozkład z jednakowym wyprzedzeniem

Widzisz, że ponieważ twoja poprzednia dystrybucja nie zawiera informacji, późniejsza dystrybucja jest całkowicie sterowana przez dane. Wykreślono również największy przedział gęstości (HDI) dla późniejszej dystrybucji. Wyobraź sobie, że umieszczasz dystrybucję tylną w niecce 2D i zaczynasz napełniać wodę, aż 95% dystrybucji znajdzie się powyżej linii wodnej. Punkty, w których linia wodna przecina się z dystrybucją tylną, stanowią 95% -HDI. Każdy punkt wewnątrz HDI ma większe prawdopodobieństwo niż jakikolwiek punkt poza nim. Ponadto HDI zawsze zawiera szczyt późniejszej dystrybucji (tj. Modę). HDI różni się od równo ogonkowego przedziału wiarygodności 95%, w którym wyklucza się 2,5% z każdego ogona tylnego (patrz tutaj ).

Jeśli chodzi o drugie zadanie, „poproszono Cię o uwzględnienie informacji, że 5–20% populacji to leworęczni. Jest na to kilka sposobów. Najprościej jest powiedzieć, że poprzednia dystrybucja beta powinna mieć średnia 0,125 USD , czyli średnia z 0,05 $ i 0,2 USD . Ale jak wybrać $ \ alpha $ i $ \ beta $ z z poprzedniej dystrybucji beta? Po pierwsze, chcesz, aby Twoja średnia z poprzedniej dystrybucji wynosiła 0,125 $ z pseudopróbki o równoważnej wielkości próby $ n_ {eq} $ . Mówiąc bardziej ogólnie, jeśli chcesz, aby twój poprzednik miał średnią $ m $ z pseudo-próbką o rozmiarze $ n_ {eq} $ , odpowiadającym mu $ \ alpha $ i $ \ beta $ wartości to: $ \ alpha = mn_ {eq} $ i $ \ beta = (1-m) n_ {eq} $ . Teraz pozostaje Ci tylko wybrać rozmiar pseudo-próbki $ n_ {eq} $ , który określa stopień pewności co do wcześniejszych informacji. Powiedzmy, że masz pewność co do swoich wcześniejszych informacji i ustaw $ n_ {eq} = 1000 $ . Parametry Twojej poprzedniej dystrybucji są już dostępne $ \ alpha = 0,125 \ cdot 1000 = 125 $ i $ \ beta = (1 – 0,125) \ cdot 1000 = 875 $ . Dystrybucja późniejsza to $ \ mathrm {Beta} (127, 891) $ ze średnią około 0,125 $ czyli praktycznie to samo, co poprzednia średnia 0,125 $ . Wcześniejsze informacje dominują w późniejszych (patrz poniższy wykres):

Wcześniejsze, prawdopodobieństwo danych i późniejsza dystrybucja z silnymi informacjami przed

Jeśli nie masz pewności co do wcześniejszych informacji, możesz ustawić $ n_ {eq} $ twojej pseudo-próbki do, powiedzmy, 10 $ $ , co daje $ \ alpha = 1.25 $ i $ \ beta = 8.75 $ za poprzednią wersję beta. Dystrybucja późniejsza to $ \ mathrm {Beta} (3,25, 24,75) $ ze średnią około 0,116 $ . Średnia późniejsza jest teraz zbliżona do średniej danych ( 0,111 USD ), ponieważ dane przeważają nad poprzednimi. Oto wykres przedstawiający sytuację:

Wcześniejsze, prawdopodobieństwo danych i późniejszy rozkład z beta przed wartością odpowiadającą pseudo-próbce o wielkości 3

Bardziej zaawansowaną metodą uwzględniania wcześniejszych informacji byłoby stwierdzenie, że kwantyl 0,025 $ Twojej poprzedniej dystrybucji beta powinien wynosić około 0,05 USD , a kwantyl 0,975 $ powinien wynosić około 0,2 USD . To równoważne stwierdzeniu, że masz 95% pewności, że odsetek leworęcznych w populacji mieści się w przedziale od 5% do 20%. Funkcja beta.select w pakiecie R LearnBayes oblicza odpowiedni $ \ alpha $ i $ \ beta $ wartości dystrybucji beta odpowiadające takim kwantylom. Kod to

library(LearnBayes) quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05 quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2 beta.select(quantile1, quantile2) [1] 7.61 59.13 

Wygląda na to, że dystrybucja beta z parametrami $ \ alpha = 7,61 $ a $ \ beta = 59.13 $ ma żądane właściwości. Wcześniejsza średnia to 7,61 USD / (7.61 + 59,13) \ około 0,114 $ , co jest zbliżone do średniej z Twoich danych ( 0,111 $ ). Ponownie, ta wcześniejsza dystrybucja zawiera informacje o pseudopróbce o równoważnej wielkości próbki około $ n_ {eq} \ około 7,61 + 59,13 \ około 66,74 $ . Dystrybucja późniejsza to $ \ mathrm {Beta} (9.61, 75.13) $ ze średnią 0,113 $ co jest porównywalne ze średnią z poprzedniej analizy przy użyciu wcześniejszego $ \ mathrm {Beta} (125, 875) $ . Oto odpowiedni wykres:

Wcześniejsze, prawdopodobieństwo danych i późniejszy rozkład z wcześniejszymi, które mają 0,05 i 0,975 kwantyli 0,05 i 0,2

Zobacz także ten odnośnik , aby zapoznać się z krótkim, ale dobrym przeglądem rozumowania bayesowskiego i prostą analizą. Dłuższe wprowadzenie do analiz koniugatów, zwłaszcza w przypadku danych dwumianowych, można znaleźć tutaj . Ogólne wprowadzenie do myślenia bayesowskiego można znaleźć tutaj . Więcej slajdów dotyczących aspektów statystyki Baysian znajduje się tutaj .

Komentarze

  • Dlaczego czy wybieramy tutaj dystrybucję Beta?
  • @Metallica Głównym powodem jest to, że Beta jest koniugatem przed rozkładem dwumianowym. Oznacza to, że jeśli wybierzemy wersję beta tak jak poprzednio, późniejsza również będzie beta. Kolejnymi powodami są to, że Beta ma wartość od 0 do 1 i jest bardzo elastyczna. Obejmuje na przykład mundur. Ale jakakolwiek poprawna dystrybucja z obsługą w $ (0,1) $ może być używana jak poprzednio. Czy ' jest po prostu trudniejsze do obliczenia późniejszego.
  • Jeśli wykresy są wykreślane za pomocą R? Czy mógłbyś dodać kody R, aby wygenerować powyższe wykresy? Są naprawdę pomocni. Dzięki!
  • Wydawało mi się, że poprzednikiem bez informacji byłby Jeffrey ' s przed $ \ alpha = \ beta = \ frac 1 2 $ … dlaczego myślisz tak nie jest?
  • @meduz Ściśle mówiąc, nie ma wcześniejszych ” nieinformacyjnych „. Chciałbym odesłać Cię do doskonałej odpowiedzi autorstwa Tima w tej dyskusji.

Odpowiedź

Rozkład beta z $ \ alpha $ = 1 i $ \ beta $ = 1 to to samo, co rozkład jednolity. W rzeczywistości jest to jednolite. Próbujesz znaleźć informacje o parametrze rozkładu (w tym przypadku procent leworęcznych w grupie). Formuła Bayesa brzmi:

$ P (r | Y_ {1, …, n}) $ = $ \ frac {P (Y_ {1, …, n} | r) * P (r)} {\ int P (Y_ {1, …, n} | \ theta) * P (r)} $

które wskazałeś jest proporcjonalne do:

$ P (r | Y_ {1, …, n}) $ $ \ propto $ $ (Y_ {1, …, n} | r) * P (r) $

Więc zasadniczo zaczynasz od swojego wcześniejszego przekonania o odsetku leworęcznych w grupie (P (r), dla którego „używasz uniform dist”), a następnie rozważ dane, które zbierasz, aby poinformować swojego poprzednika (w tym przypadku dwumian. Albo jesteś praworęczny, albo leworęczny, więc $ P (Y_ { 1, …, n} | r) $). Rozkład dwumianowy ma przed sprzężeniem beta, co oznacza, że rozkład późniejszy $ P (r | Y_ {1, … n}) $, rozkład parametru po uwzględnieniu danych, należy do tej samej rodziny co poprzedni. r tutaj nie jest w końcu nieznane. (i szczerze mówiąc, nie było to przed zebraniem danych. Mamy całkiem niezłe wyobrażenie o odsetku leworęcznych w społeczeństwie). Masz zarówno poprzedni rozkład (twoje założenie r), jak i zebrałeś dane i połącz je razem. Tylne to twoje nowe założenie dotyczące rozmieszczenia osób leworęcznych po rozważeniu danych. Więc bierzemy prawdopodobieństwo danych i mnożymy je przez mundur. Oczekiwana wartość dystrybucji beta (czyli tym, czym jest plakat) to $ \ frac {\ alpha} {\ alpha + \ beta} $. Więc kiedy zaczynałeś, zakładałeś, że $ \ alpha $ = 1 i $ \ beta $ = 1, że odsetek leworęcznych na świecie wynosi $ \ frac {1} {2} $. Teraz zebrałeś dane, które mają 2 lewe z 18. Obliczałeś później. (nadal beta) Twoje wartości $ \ alpha $ i $ \ beta $ są teraz różne, zmieniając twój pogląd na stosunek lewaków do prawych. jak to się zmieniło?

Odpowiedź

W pierwszej części twojego pytania prosi cię o zdefiniowanie odpowiedniego przedrostka dla „r ”. Mając w ręku dane dwumianowe, rozsądnie byłoby wybrać rozkład beta. Ponieważ wtedy późniejszy będzie beta. Jednolity podział, będący szczególnym przypadkiem wersji beta, możesz wybrać przed „r” jednolity rozkład, dzięki czemu każda możliwa wartość „r” będzie jednakowo prawdopodobna.

W drugiej części podałeś informacje dotyczące poprzedniej dystrybucji „r”.

Mając to w ręku, odpowiedź @COOLSerdash da ci właściwe wskazówki.

Dziękujemy za opublikowanie tego pytania i COOLSerdash za udzielenie właściwej odpowiedzi.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *