Jaka ' jest różnica między przedziałem ufności a przedziałem wiarygodnym?

Na giełdzie Jorisa i Srikanta tutaj zastanawiałem się (ponownie), czy moja wewnętrzna wyjaśnienia dotyczące różnicy między przedziałami ufności a przedziałami wiarygodnymi były prawidłowe. Jak byś wyjaśnił tę różnicę?

Odpowiedź

I zgadzają się całkowicie z wyjaśnieniem Srikanta. Aby nadać temu bardziej heurystyczny opis:

Klasyczne podejścia ogólnie zakładają, że świat jest jednokierunkowy (np. Parametr ma jedną konkretną prawdziwą wartość) i próbują przeprowadzić eksperymenty, których wynikowy wniosek – nieważne prawdziwa wartość parametru – będzie poprawna z co najmniej pewnym minimalnym prawdopodobieństwem.

W rezultacie, aby wyrazić niepewność w naszej wiedzy po eksperymencie, podejście często stosuje „przedział ufności” – zakres wartości mających na celu uwzględnienie prawdziwej wartości parametru z pewnym minimalnym prawdopodobieństwem, powiedzmy 95%. Często osoba zaprojektuje eksperyment i procedurę 95% przedziału ufności tak, aby na każde 100 przeprowadzonych eksperymentów od początku do końca co najmniej 95 z otrzymanych przedziałów ufności zawierało prawdziwą wartość parametru. Pozostałe 5 może być trochę błędnych lub mogą być kompletnym nonsensem – formalnie mówiąc, że „jest w porządku, jeśli chodzi o podejście, o ile 95 na 100 wniosków jest poprawnych. (Oczywiście wolelibyśmy, żeby były trochę źle, a nie totalny nonsens.)

Podejścia bayesowskie inaczej formułują problem. Zamiast mówić, że parametr ma po prostu jedną (nieznaną) prawdziwą wartość, metoda Bayesa mówi, że wartość parametru jest stała, ale została wybrany z pewnego rozkładu prawdopodobieństwa – znany jako wcześniejszy rozkład prawdopodobieństwa. (Innym sposobem na powiedzenie tego jest to, że przed dokonaniem jakichkolwiek pomiarów metoda bayesowska przypisuje rozkład prawdopodobieństwa, który nazywają stanem przekonania, na temat prawdziwej wartości parametru). Ten „poprzedni” może być znany (wyobraź sobie aby oszacować rozmiar ciężarówki, jeśli znamy ogólny rozkład rozmiarów ciężarówek z DMV) lub może to być założenie wyciągnięte z powietrza. Wnioskowanie bayesowskie jest prostsze – zbieramy dane, a następnie obliczamy prawdopodobieństwo różnych wartości parametru PODANE dane. Ten nowy rozkład prawdopodobieństwa nazywany jest „prawdopodobieństwem a posteriori” lub po prostu „późniejszym”. Podejścia bayesowskie mogą podsumować swoją niepewność, podając zakres wartości późniejszego rozkładu prawdopodobieństwa, który obejmuje 95% prawdopodobieństwa – nazywa się to „95% przedziałem wiarygodności”.

Stronnik bayesowski może skrytykować częsty przedział ufności, taki jak ten: „A co, jeśli 95 na 100 eksperymentów daje przedział ufności, który zawiera prawdziwą wartość? Nie obchodzi mnie 99 eksperymentów NIE ZROBIŁEM; obchodzi mnie ten eksperyment, który ZROBIŁEM. Twoja zasada pozwala, aby 5 na 100 było kompletnym nonsensem [wartości ujemne, wartości niemożliwe], o ile pozostałe 95 jest poprawnych; to „śmieszne”.

Często zagorzały bywalec może krytykować przedział wiarygodności Bayesa w ten sposób: „A co, jeśli 95% późniejszego prawdopodobieństwa mieści się w tym przedziale? A jeśli prawdziwa wartość to, powiedzmy, 0,37? Jeśli tak, to Twoja metoda, od początku do końca, będzie NIEPRAWIDŁOWA w 75% przypadków. Twoja odpowiedź brzmi: „No cóż, to„ w porządku, ponieważ zgodnie z poprzednimi wersjami bardzo rzadko zdarza się, że wartość wynosi 0,37 ”i tak może być, ale potrzebuję metody, która działa dla KAŻDEJ możliwej wartości parametru. Nie obchodzi mnie 99 wartości parametru, którego NIE MA; Dbam o jedyną prawdziwą wartość, którą MA. A tak przy okazji, twoje odpowiedzi są poprawne tylko wtedy, gdy poprzednie są poprawne. Jeśli po prostu wyciągniesz to z powietrza, ponieważ wydaje się to właściwe, możesz być daleko. ”

W pewnym sensie obaj ci partyzanci mają rację w swoich metodach krytyki siebie nawzajem, ale nalegałbym musisz myśleć matematycznie o rozróżnieniu – jak wyjaśnia Srikant.


Oto rozszerzony przykład z tego przemówienia, który pokazuje różnicę dokładnie w dyskretnym przykładzie.

Kiedy Byłem dzieckiem moja mama czasami zaskakiwała mnie, zamawiając słoik ciasteczek z kawałkami czekolady, które miały być dostarczone pocztą.Firma dostawcza miała w ofercie cztery różne rodzaje słoików z ciastkami – typ A, typ B, typ C i typ D , i wszystkie były na tej samej ciężarówce i nigdy nie było wiadomo, jaki rodzaj otrzymasz. Każdy słoik miał dokładnie 100 ciastek, ale cechą, która wyróżniała różne słoiki z ciastkami, była ich dystrybucja kawałków czekolady na ciastko. słoik i wyjąłeś jeden plik cookie w sposób jednolity i losowy, to są rozkłady prawdopodobieństwa, które chcesz t o liczbie żetonów:

tekst alternatywny

Na przykład słoik z ciasteczkami typu A zawiera 70 ciasteczek i dwa frytki każdy i żadnych ciasteczek z czterema lub więcej frytkami!Słoik z ciasteczkami typu D zawiera 70 ciastek po jednym chipie. Zwróć uwagę, że każda kolumna pionowa jest funkcją masy prawdopodobieństwa – warunkowym prawdopodobieństwem liczby żetonów, które otrzymasz, biorąc pod uwagę, że jar = A lub B, C lub D, a każda kolumna sumuje się do 100.

Kiedyś uwielbiałem grać w grę, gdy tylko doręczyciel upuścił mój nowy słoik z ciasteczkami. Wyciągałem ze słoika jedno ciasteczko na chybił trafił, liczyłem żetony na ciasteczku i próbowałem wyrazić niepewność – na poziomie 70% – co do tego, jakie to słoiki. Zatem to tożsamość jar (A, B, C lub D) jest wartością parametru będącego oszacowana. Liczba żetonów (0, 1, 2, 3 lub 4) to wynik albo obserwacja lub próbka .

Początkowo grałem w tę grę z częstym, 70% przedziałem ufności. Taki przedział musi mieć pewność, że bez względu na prawdziwa wartość parametru, co oznacza, że bez względu na to, który słoik z ciasteczkami otrzymam, przedział będzie obejmował tę prawdziwą wartość z co najmniej 70% prawdopodobieństwem.

Przedział oczywiście to funkcja, która wiąże wynik (wiersz) ze zbiorem wartości parametru (zestawem kolumn). Jednak aby skonstruować przedział ufności i zagwarantować pokrycie 70%, musimy pracować „pionowo „- patrząc na każdą kolumnę po kolei i upewniając się, że 70% funkcji masy prawdopodobieństwa jest pokryta tak, że 70% czasu, tożsamość tej kolumny będzie częścią przedziału czasu, który wyniknie. Pamiętaj, że to pionowe kolumny tworzą pmf

Więc po wykonaniu tej procedury otrzymałem następujące odstępy:

wprowadź opis obrazu tutaj

Na przykład, jeśli liczba żetonów w pliku cookie, który narysuję, wynosi 1, mój przedział ufności wyniesie {B, C, D}. Jeśli liczba wynosi 4, mój przedział ufności będzie {B, C}. Zwróć uwagę, że skoro każda kolumna sumuje się do 70% lub więcej, to niezależnie od tego, w której kolumnie się znajdujemy (bez względu na to, który słoik zrzucił dostawca), interwał wynikający z tej procedury będzie zawierał poprawne jar z prawdopodobieństwem co najmniej 70%.

Zauważ również, że procedura, którą zastosowałem przy konstruowaniu przedziałów, była dyskretna. W kolumnie dla typu B mogłem równie łatwo upewnić się, że przedziały, które uwzględnione B wyniosłoby 0,1,2,3 zamiast 1,2,3,4. Dałoby to 75% pokrycia dla słoików typu B (12 + 19 + 24 + 20), nadal spełniając dolną granicę 70%.

Moja siostra Bayesia pomyślała o tej aplikacji płotka była jednak szalona. „Musisz uważać dostawcę za część systemu” – powiedziała. Potraktujmy tożsamość słoika jako samą zmienną losową i pozwólmy założyć , że dostawca wybiera spośród nich jednolicie – co oznacza, że ma wszystkie cztery na swojej ciężarówce, a kiedy dostanie do naszego domu wybiera losowo jeden, każdy z jednakowym prawdopodobieństwem. „

” Przy takim założeniu spójrzmy teraz na łączne prawdopodobieństwa całego zdarzenia – typ słoika i liczbę żetonów pobranych z pierwszego pliku cookie” – powiedziała, rysując następującą tabelę:

tutaj wprowadź opis obrazu

Zauważ, że cała tabela jest teraz funkcją masy prawdopodobieństwa – co oznacza, że cała tabela sumuje się do 100%.

” Ok, powiedziałem, „dokąd z tym zmierzasz?”

„Sprawdzałeś warunkowe prawdopodobieństwo liczby żetonów, biorąc pod uwagę słoik” – powiedział Bayesia. „To wszystko jest nie tak! To, na czym naprawdę Ci zależy, to warunkowe prawdopodobieństwo tego, który to słoik, biorąc pod uwagę liczbę żetonów w ciasteczku! Twój 70-procentowy przedział powinien po prostu zawierać listę słoików, które w sumie mają 70% prawdopodobieństwa, że będą prawdziwym słoikiem. Czy to nie jest dużo prostsze i bardziej intuicyjne? ”

„ Jasne, ale jak to obliczyć? ” Zapytałem.

„Powiedzmy, że wiemy , że masz 3 żetony. Następnie możemy zignorować wszystkie pozostałe wiersze w tabeli i po prostu potraktować ten wiersz jako funkcję masy prawdopodobieństwa. Będziemy jednak musieli proporcjonalnie zwiększać prawdopodobieństwa, aby każdy wiersz sumował się do 100. Zrobiła to:

wprowadź tutaj opis obrazu

„Zwróć uwagę, że każdy wiersz jest teraz pmf i sumuje się do 100%. „Odwróciłem prawdopodobieństwo warunkowe od tego, od czego zacząłeś – teraz jest prawdopodobieństwo, że mężczyzna upuścił pewien słoik, biorąc pod uwagę liczbę żetonów na pierwszym ciastku.”

„Interesujące, ” Powiedziałem. „Więc teraz zakreślamy wystarczającą liczbę słoików w każdym rzędzie, aby uzyskać do 70% prawdopodobieństwo?” Zrobiliśmy to, tworząc następujące przedziały wiarygodności:

tutaj wprowadź opis obrazu

Każdy przedział zawiera zestaw słoików, które a posteriori , suma do 70% prawdopodobieństwa bycia prawdziwym słoikiem.

„Cóż, poczekaj” – powiedziałem. „Nie jestem przekonany.Umieśćmy obok siebie dwa rodzaje przedziałów i porównajmy je pod kątem pokrycia i, zakładając, że dostawca wybiera każdy rodzaj słoika z równym prawdopodobieństwem, wiarygodnością.

Oto one:

Przedziały ufności:

wprowadź opis obrazu tutaj

Przedziały wiarygodności:

tutaj wprowadź opis obrazu

„Widzisz, jak szalone są twoje przedziały ufności?” – powiedziała Bayesia. „Nie masz nawet rozsądnej odpowiedzi, kiedy rysujesz ciastko bez żetonów! Po prostu mówisz, że to pusty przedział czasu. Ale to oczywiście błędne – to musi być jeden z czterech rodzajów słoików. Jak możesz żyć ze sobą, określając interwał pod koniec dnia, kiedy wiesz, że interwał jest zły? I tak samo kiedy wyciągasz ciasteczko z 3 żetonami – Twój interwał jest poprawny tylko w 41% przypadków. Nazywanie tego „70%” przedziałem ufności to bzdura.

„Cóż, hej” – odpowiedziałem. „To prawda w 70% przypadków, bez względu na to, który słoik zostawił kurier. „To o wiele więcej, niż możesz powiedzieć o swoich przedziałach wiarygodności. A jeśli słoik jest typu B? Wtedy interwał będzie nieprawidłowy w 80% przypadków, a poprawny tylko w 20%! „

” Wydaje się to dużym problemem „kontynuowałem”, ponieważ twoje błędy będą skorelowane z rodzaj słoika. Jeśli wyślesz 100 robotów „bayesowskich”, aby oszacowały, jaki masz typ słoika, a każdy robot pobierze jeden plik cookie, to mówisz mi, że w dni typu B spodziewasz się, że 80 robotów otrzyma złą odpowiedź, każdy mając> 73% wiary w błędne wnioski! To „kłopotliwe, zwłaszcza jeśli chcesz, aby większość robotów zgodziła się na właściwą odpowiedź”.

„Ponadto musieliśmy przyjąć założenie, że dostawca zachowuje się jednolicie i losowo wybiera każdy rodzaj słoika – powiedziałem. – Skąd to się wzięło? A jeśli to źle? Nie rozmawiałeś z nim; nie przesłuchałeś go. Jednak wszystkie twoje stwierdzenia prawdopodobieństwa a posteriori opierają się na tym stwierdzeniu dotyczącym jego zachowania. Nie musiałem przyjmować żadnych takich założeń, a mój przedział spełnia swoje kryterium nawet w najgorszy przypadek. ”

„ Prawdą jest, że mój przedział wiarygodności działa słabo na słoikach typu B ”- powiedziała Bayesia. „Ale co z tego? Słoiki typu B zdarzają się tylko w 25% przypadków. Jest to równoważone przez moje dobre pokrycie słoikami typu A, C i D. I nigdy nie publikuję bzdur. „

” To prawda, że mój przedział ufności działa słabo, gdy narysowałem ciasteczko bez żetonów „- powiedziałem.” Ale co z tego? W najgorszym przypadku (słoik typu D) zdarzają się co najwyżej 27% przypadków ciasteczka pozbawione luk. Mogę sobie pozwolić na bzdury za ten wynik, ponieważ ŻADEN słoik nie spowoduje złej odpowiedzi w ponad 30% przypadków. ”

„ Sumy w kolumnie mają znaczenie ”- powiedziałem.

„Sumy w wierszach mają znaczenie” – powiedziała Bayesia.

„Widzę, że„ jesteśmy w impasie ”- powiedziałem. „Oboje mamy rację w twierdzeniach matematycznych, które„ robimy ”, ale nie zgadzamy się co do właściwego sposobu ilościowego określenia niepewności.

„ To prawda ”- powiedziała moja siostra.„ Chcesz ciastko? „

Komentarze

  • Dobra odpowiedź – tylko jedna drobna uwaga, mówisz ” …. Zamiast mówić, że parametr ma jedną prawdziwą wartość, metoda bayesowska mówi, że wartość jest wybierana z pewnego rozkładu prawdopodobieństwa ….. ” To nieprawda. Bayesian pasuje do rozkładu prawdopodobieństwa do wyrażenia niepewności co do prawdziwej, nieznanej, ustalonej wartości. To mówi, które wartości są wiarygodne, biorąc pod uwagę to, co było znane przed obserwacją danych. Rzeczywiste stwierdzenie prawdopodobieństwa to $ Pr [\ theta_0 \ in (\ theta, \ theta + d \ theta) | I] $, gdzie $ \ theta_0 $ to wartość prawdziwa, a $ \ theta $ hipoteza oparta na informacjach $ I $.
  • … cont ' d … ale znacznie wygodniej jest po prostu napisać $ p (\ theta) $, ze zrozumieniem, co t to oznacza ” w tle „. Najwyraźniej może to spowodować wiele zamieszania.
  • Przepraszamy, że wrócę do tego super starego posta, ale krótkie pytanie w Twoim poście w sekcji, w której często krytykuje podejście bayesowskie, które mówisz: ” A jeśli prawdziwa wartość to, powiedzmy, 0,37? Jeśli tak, to Twoja metoda, od początku do końca, będzie NIEPRAWIDŁOWA w 75% przypadków. ” Jak uzyskałeś te liczby? w jaki sposób 0,37 odpowiada 75% błędowi? Czy to jest poza jakimś rodzajem krzywej prawdopodobieństwa? Dzięki
  • @ BYS2, kiedy autor mówi, że "What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time", podaje tylko przykładowe liczby, które wymyślili. W tym konkretnym przypadku odnosiliby się do jakiegoś wcześniejszego rozkładu, który miał bardzo niską wartość na poziomie 0,37, z większością gęstości prawdopodobieństwa gdzie indziej. Zakładamy, że nasz przykładowy rozkład działałby bardzo słabo, gdyby prawdziwa wartość parametru wynosiła 0.37, podobnie jak w przypadku Bayesii ' przedziały wiarygodności zawiodły żałośnie, gdy słoik był typu B.
  • Autor mówi "you will expect 80 of the robots to get the wrong answer, each having >73% belief in its incorrect conclusion!", ale powinno to być >72% przekonaniem, ponieważ 72% to minimalna wiarygodność w tabeli przedziałów wiarygodności.

Odpowiedź

Moje rozumienie jest następujące:

Tło

Załóżmy, że masz jakieś dane $ x $ i próbujesz oszacować $ \ theta $. Masz proces generowania danych, który opisuje sposób generowania $ x $ w zależności od $ \ theta $. Innymi słowy, znasz rozkład $ x $ (powiedzmy, $ f (x | \ theta) $.

Problem wnioskowania

Twój problem wnioskowania jest następujący: jakie wartości $ \ theta $ są rozsądne, biorąc pod uwagę obserwowane dane $ x $?

Przedziały ufności

Przedziały ufności są klasyczną odpowiedzią na powyższy problem. W tym podejściu zakładasz, że prawda , ustalona wartość $ \ theta $. Biorąc pod uwagę to założenie, używasz danych $ x $ do oszacowania $ \ theta $ (powiedzmy, $ \ hat {\ theta} $). Gdy już Twoje oszacowanie chcesz ocenić, gdzie jest prawdziwa wartość w stosunku do Twojego oszacowania.

Zauważ, że w tym podejściu prawdziwa wartość jest nie zmienną losową. Jest to stała, ale nieznana ilość. W przeciwieństwie do tego, oszacowanie jest zmienną losową, ponieważ zależy od danych $ x $, które zostały wygenerowane w procesie generowania danych. W ten sposób zdajesz sobie sprawę, że otrzymujesz różne szacunki za każdym razem, gdy powtarzasz swoje badanie.

Powyższe zrozumienie prowadzi do następującej metodologii oceny, gdzie jest prawdziwy parametr w stosunku do oszacowania. Zdefiniuj przedział, $ I \ equiv [lb (x), ub (x)] $ o następującej własności:

$ P (\ theta \ in I) = 0,95 $

Przedział skonstruowany tak jak powyżej to tak zwany przedział ufności. Ponieważ prawdziwa wartość jest nieznana, ale stała, prawdziwa wartość znajduje się w przedziale lub poza przedziałem. Przedział ufności jest zatem stwierdzeniem o prawdopodobieństwie, że przedział, który otrzymujemy, faktycznie ma prawdziwą wartość parametru. Zatem stwierdzenie prawdopodobieństwa dotyczy raczej przedziału (tj. Prawdopodobieństwa, że przedział ma wartość prawdziwą lub nie), a nie lokalizacji prawdziwej wartości parametru.

W tym paradygmacie nie ma sensu mów o prawdopodobieństwie, że prawdziwa wartość jest mniejsza lub większa od jakiejś wartości, ponieważ prawdziwa wartość jest nie zmienną losową.

Wiarygodne przedziały

W przeciwieństwie do podejścia klasycznego, w podejściu bayesowskim zakładamy, że wartość prawdziwa jest zmienną losową. W ten sposób przechwytujemy naszą niepewność co do prawdziwej wartości parametru przez nałożenie wcześniejszego rozkładu na prawdziwy wektor parametrów (powiedzmy $ f (\ theta) $).

Korzystając z twierdzenia bayesa, tworzymy rozkład późniejszy dla wektora parametrów, mieszając poprzedni i dane, które mamy (krótko mówiąc, późniejsze to $ f (\ theta | -) \ propto f (\ theta) f (x | \ theta) $).

Następnie dochodzimy do oszacowania punktowego przy użyciu późniejszej dystrybucji (np. Używamy średniej z późniejszej dystrybucji). Ponieważ jednak zgodnie z tym paradygmatem rzeczywisty wektor parametrów jest zmienną losową, chcemy również poznać stopień niepewności, jaki mamy w naszej ocenie punktowej. W ten sposób konstruujemy przedział taki, że zachowany jest następujący:

$ P (l (\ theta) \ le {\ theta} \ le ub (\ theta)) = 0,95 $

Powyższe jest wiarygodnym przedziałem.

Podsumowanie

Wiarygodne interwały odzwierciedlają naszą aktualną niepewność co do lokalizacji wartości parametrów i dlatego mogą być interpretowane jako probabilistyczne stwierdzenie dotyczące parametru.

W przeciwieństwie do tego, przedziały ufności wychwytują niepewność dotyczącą przedziału, który uzyskaliśmy (tj. czy zawiera on wartość prawdziwą, czy nie). Dlatego nie mogą być interpretowane jako probabilistyczne stwierdzenie dotyczące prawdziwych wartości parametrów.

Komentarze

  • 95% przedział ufności z definicji obejmuje prawdziwy parametr wartość w 95% przypadków, jak wskazałeś poprawnie. Zatem prawdopodobieństwo, że Twój przedział pokrywa prawdziwą wartość parametru, wynosi 95%. Czasami możesz powiedzieć coś o prawdopodobieństwie, że parametr jest większy lub mniejszy niż którakolwiek z granic, w oparciu o założenia przyjęte podczas konstruowania przedziału (dość często normalny rozkład oszacowania). Możesz obliczyć P (theta > ub) lub P (ub < theta). To stwierdzenie rzeczywiście dotyczy granic, ale możesz to zrobić.
  • Joris, nie mogę ' się z tym zgodzić. Tak, dla dowolnej wartości parametru będzie > 95% prawdopodobieństwo, że wynikowy przedział będzie obejmował prawdziwą wartość.To nie ' nie oznacza, że po wykonaniu konkretnej obserwacji i obliczeniu przedziału, nadal istnieje 95% prawdopodobieństwo warunkowe, biorąc pod uwagę dane, że ten przedział pokrywa prawdziwą wartość. Jak powiedziałem poniżej, formalnie byłoby całkowicie do przyjęcia, gdyby przedział ufności wypluł [0, 1] 95% czasu, a pusty zbiór pozostałych 5%. W przypadkach, w których jako przedział ustawiono pusty zestaw, istnieje ' t 95% prawdopodobieństwa, że prawda mieści się w granicach!
  • Joris, używałem ” data ” jako synonim ” próbki, ” więc myślę, że się zgadzamy. Chodzi mi o to, że ' można znaleźć się w sytuacjach po pobraniu próbki, w których można z absolutną pewnością udowodnić, że dany przedział jest nieprawidłowy – że nie obejmuje prawdziwa wartość. Nie oznacza to, że nie jest to prawidłowy 95% przedział ufności. Możesz więc ' powiedzieć, że parametr ufności (95%) mówi cokolwiek o prawdopodobieństwie pokrycia określonego przedziału czasu po ' wykonałem eksperyment i otrzymałem interwał. Tylko prawdopodobieństwo a posteriori, poinformowane przez przeora, może o tym mówić.
  • W jednym z artykułów Jaynesa bayes.wustl.edu/etj/articles/ ufność.pdf Konstruuje przedział ufności, a następnie pokazuje, że dla danej próbki możesz być w 100% pewien, że prawdziwa wartość nie mieści się w ” przedziale ufności „. To nie ' nie oznacza, że CI jest ” zły „, po prostu częsty przedział ufności nie jest odpowiedzią na pytanie ” jaki jest przedział zawierający prawdziwą wartość statystyki z prawdopodobieństwem 95% „. Niestety, to jest pytanie, które chcielibyśmy zadać, i dlatego PW jest często interpretowany tak, jakby był odpowiedzią na to pytanie. 🙁
  • @svadalli – podejście bayesowskie nie zakłada, że $ \ theta $ jest losowe . To nie $ \ theta $ jest dystrybuowane ($ \ theta $ jest ustalona, ale nieznana), to niepewność co do $ \ theta $ jest rozkładana zależnie od stanu wiedzy na temat $ \ theta $. Rzeczywiste zestawienie prawdopodobieństwa przechwytywane $ f (\ theta) $ to $ Pr (\ theta \ text {jest w przedziale} (\ theta, \ theta + d \ theta) | I) = f (\ theta) d \ theta $. In Faktycznie, dokładnie ten sam argument odnosi się do $ X $, również można go uznać za ustalony, ale nieznany.

Odpowiedź

Nie zgadzam się z odpowiedzią Srikanta w jednej fundamentalnej kwestii. Srikant stwierdził to:

„Problem z wnioskiem: Twój problem z wnioskiem jest następujący: Jakie wartości θ są rozsądne, biorąc pod uwagę obserwowane dane x?”

W rzeczywistości jest to PROBLEM ODNIESIENIA BAYESJSKIEGO. W statystykach bayesowskich staramy się obliczyć P (θ | x), czyli prawdopodobieństwo wartości parametru przy danych obserwowanych (próbce). jest przedziałem θ z 95% szansą (lub inną) na zawarcie prawdziwej wartości θ, biorąc pod uwagę kilka założeń leżących u podstaw problemu.

PROBLEM Z CZĘSTOTLIWOŚCIĄ WNIOSKU wygląda tak:

Czy obserwowane dane x są rozsądne, biorąc pod uwagę hipotetyczne wartości θ?

W częstoistycznej statystyce staramy się obliczyć P (x | θ), tj. prawdopodobieństwo obserwacji danych (próbki) przy założonych wartościach parametrów. INTERWAŁ ZAUFANIA (być może błędna nazwa) jest interpretowany jako: jeśli eksperyment, który wygenerował próbkę losową x, był powtarzany wiele razy, 95% (lub więcej) takich przedziałów zbudowanych z tych losowych próbek zawierałoby prawdziwą wartość parametru.

Brud w głowie? Na tym polega problem ze statystykami częstościowymi i najważniejsza rzecz, jaką zmierzają do tego statystyki bayesowskie.

Jak wskazuje Sikrant, P (θ | x) i P (x | θ) są powiązane w następujący sposób:

P (θ | x) = P (θ) P (x | θ)

Gdzie P (θ) to nasze wcześniejsze prawdopodobieństwo; P (x | θ) to prawdopodobieństwo dane zależne od tego wcześniejszego, a P (θ | x) jest prawdopodobieństwem późniejszym. Wcześniejsze P (θ) jest z natury subiektywne, ale taka jest cena wiedzy o Wszechświecie – w bardzo głębokim sensie.

Pozostałe części odpowiedzi Sikranta i Keitha są doskonałe.

Komentarze

  • Technicznie masz rację, ale pamiętaj, że przedział ufności daje zbiór wartości parametrów, dla których hipoteza zerowa jest prawdziwa. Zatem ” czy obserwowane dane x są rozsądne, biorąc pod uwagę naszą hipotezę dotyczącą theta? ” można przeformułować jako ” Jakie prawdziwe wartości theta byłyby zgodną hipotezą, biorąc pod uwagę obserwację ed data x? ” Zauważ, że przeformułowane pytanie niekoniecznie oznacza, że zakłada się, że theta jest zmienną losową.Ponownie sformułowane pytanie wykorzystuje fakt, że wykonujemy testy hipotezy zerowej, sprawdzając, czy hipoteza mieści się w przedziale ufności.
  • @svadali – przedziały ufności oceniają dane pod kątem stałego hipoteza. Dlatego zmieniając ” ustaloną ” część równania, jeśli nie weźmiesz pod uwagę prawdopodobieństwa hipotezy przed obserwacją danych, wtedy z pewnością pojawią się niespójności i niespójne wyniki. Prawdopodobieństwo warunkowe nie jest ” ograniczone ” przy zmianie warunków (np. Zmieniając warunki, możesz zmienić prawdopodobieństwo warunkowe z 0 na 1) . Wcześniejsze prawdopodobieństwo uwzględnia tę arbitralność. Uwarunkowanie X jest wykonywane, ponieważ mamy pewność, że wystąpił X – zaobserwowaliśmy X!

Odpowiedź

udzielone wcześniej odpowiedzi są bardzo pomocne i szczegółowe. Oto moje 0,25 $.

Przedział ufności (CI) to koncepcja oparta na klasycznej definicji prawdopodobieństwa (zwanej także „definicją Frequentyst”), że prawdopodobieństwo jest podobne do proporcji i jest oparte na systemie aksjomatycznym Kołmogrowa (i inni).

Można uznać, że wiarygodne interwały (Highest Posterior Density, HPD) mają swoje korzenie w teorii decyzji, opartej na pracach Walda i de Finettiego (i znacznie rozszerzonych przez innych).

Ponieważ ludzie w tym wątku wykonali świetną robotę, podając przykłady i różnicując hipotezy w przypadku bayesowskim i częstym, podkreślę tylko kilka ważnych punktów.

  1. CI opierają się na fakcie, że MUSZĄ być wyciągane wnioski na podstawie wszystkich możliwych powtórzeń eksperymentu, które można zobaczyć, a NIE tylko na obserwowanych danych, gdzie HPD opierają się CAŁKOWICIE na obserwowanych danych (i naszych wcześniejszych założeniach).

  2. Generalnie CI NIE są spójne (zostanie wyjaśnione później), podczas gdy HPD są spójne (ze względu na ich korzenie w teorii decyzji). Spójność (jak wyjaśniłbym mojej babci) oznacza: biorąc pod uwagę problem z obstawianiem wartości parametru, jeśli klasyczny statystyka (częstość) stawia na CI, a bayesian stawia na HPD, częstość JEST BOUND, aby przegrać (z wyłączeniem trywialnego przypadku gdy HPD = CI). Krótko mówiąc, jeśli chcesz podsumować wyniki swojego eksperymentu jako prawdopodobieństwo oparte na danych, prawdopodobieństwo MUSI być prawdopodobieństwem późniejszym (opartym na wcześniejszym). Istnieje twierdzenie (por. Heath i Sudderth, Annals of Statistics, 1978), które (w przybliżeniu) stwierdza: Przypisanie prawdopodobieństwa do $ \ theta $ na podstawie danych nie spowoduje pewny przegrany wtedy i tylko wtedy, gdy jest uzyskiwany w sposób bayesowski.

  3. Ponieważ CI nie warunkują obserwowanych danych (zwanych również „zasadą warunkowości” CP), istnieje mogą być paradoksalnymi przykładami. Fisher był wielkim zwolennikiem CP, a także znalazł wiele paradoksalnych przykładów, kiedy to NIE było przestrzegane (jak w przypadku CI). To jest powód, dla którego użył wartości p do wnioskowania, w przeciwieństwie do CI. Jego zdaniem wartości p oparto na obserwowanych danych (wiele można powiedzieć o wartościach p, ale nie na tym się tutaj skupiamy). Dwa z bardzo znanych paradoksalnych przykładów to: (4 i 5)

  4. Przykład Coxa (Annals of Math. Stat., 1958): $ X_i \ sim \ mathcal {N} (\ mu, \ sigma ^ 2) $ (iid) dla $ i \ in \ {1, \ dots, n \} $ i chcemy oszacować mate $ \ mu $ . $ n $ NIE jest ustalony i jest wybierany przez wrzucenie monety. Jeśli w rzucie monetą jest H, wybiera się 2, w przeciwnym razie wybiera się 1000. Oszacowanie „zdroworozsądkowe” – średnia próbki to nieobciążone oszacowanie z wariancją 0,5 $ \ sigma ^ 2 + 0,0005 \ sigma ^ 2 $ . Czego używamy jako wariancji średniej próbki, gdy $ n = 1000 $ ? Czy nie jest lepiej (lub rozsądnie) użyć wariancji estymatora średniej próby jako 0,001 $ \ sigma ^ 2 $ (wariancja warunkowa) zamiast rzeczywistej wariancji estymatora , co jest OGROMNE !! ( $ 0.5 \ sigma ^ 2 + 0.0005 \ sigma ^ 2 $ ). To jest prosta ilustracja CP, kiedy używamy wariancji jako 0,001 USD \ sigma ^ 2 $ , gdy $ n = 1000 $ . $ Samodzielna wersja n $ nie ma znaczenia lub nie ma żadnych informacji dla $ \ mu $ i $ \ sigma $ (tzn. $ n $ jest dla nich pomocniczy), ale PODAJĄC jej wartość, wiesz dużo o „jakości danych”. To bezpośrednio odnosi się do CI, ponieważ obejmują wariancję, która nie powinna być uwarunkowana na $ n $ , tj. w końcu użyjemy większej wariancji, a więc ponad konserwatywną.

  5. Przykład Welcha: ten przykład działa dla dowolnego $ n $ , ale weźmiemy $ n = 2 $ dla uproszczenia. $ X_1, X_2 \ sim \ mathcal {U} (\ theta – 1/2, \ theta + 1/2) $ (iid), $ \ theta $ należy do linii Real. Oznacza to, że $ X_1 – \ theta \ sim \ mathcal {U} (- 1/2, 1/2) $ (iid). $ \ frac {1} {2} ( X_1 + X_2) {\ bar x} – \ theta $ (zauważ, że NIE jest to statystyka) ma rozkład niezależny od $ \ theta $ . Możemy wybrać $ c > 0 $ st $ \ text {Prob} _ \ theta (-c < = {\ bar x} – \ theta < = c) = 1- \ alpha (\ ok 99 \%) $ , co oznacza, że $ ({\ bar x} – c, {\ bar x} + c) $ to 99% CI $ \ theta $ . Interpretacja tego CI jest następująca: jeśli będziemy próbkować wielokrotnie, otrzymamy różne $ {\ bar x} $ i 99% (przynajmniej) razy będzie zawierać wartość true $ \ theta $ , ALE (słoń w pokoju) dla DANYCH danych, NIE „WIEMY, że prawdopodobieństwo, że CI będzie zawierać prawdziwe $ \ theta $ . Rozważmy teraz następujące dane: $ X_1 = 0 $ i $ X_2 = 1 $ , jako $ | X_1 – X_2 | = 1 $ , wiemy NA PEWNO, że przedział $ (X_1, X_2) $ zawiera $ \ theta $ (jedna możliwa krytyka, $ \ text { Prob} (| X_1 – X_2 | = 1) = 0 $ , ale możemy sobie z tym poradzić matematycznie i nie będę o tym rozmawiać). Ten przykład również pięknie ilustruje koncepcję spójności. Jeśli jesteś klasycznym statystykiem, z pewnością postawisz na 99% CI bez patrzenia na wartość $ | X_1 – X_2 | $ (zakładając, że jesteś wierny zawód). Jednak bayesian postawi na CI tylko wtedy, gdy wartość $ | X_1 – X_2 | $ jest bliska 1. Jeśli warunek $ | X_1 – X_2 | $ , interwał jest spójny i gracz nie będzie już pewnym przegranym (podobnie jak twierdzenie Heatha i Suddertha).

  6. Fisher miał zalecenie dla takich problemów – użyj CP. Na przykładzie Welcha, Fisher zasugerował warunek $ X_2-X_1 $ . Jak widać, $ X_2-X_1 $ ma charakter pomocniczy dla $ \ theta $ , ale zawiera informacje o theta. Jeśli $ X_2-X_1 $ jest MAŁY, nie ma zbyt wielu informacji o $ \ theta $ w dane. Jeśli $ X_2-X_1 $ jest DUŻY, jest dużo informacji o $ \ theta $ w dane. Fisher rozszerzył strategię warunkowania statystyki pomocniczej do ogólnej teorii zwanej wnioskiem powierniczym (nazywanej również jego największą porażką, por. Zabell, Stat. Sci. 1992), ale nie stała się popularna z powodu brak ogólności i elastyczności. Fisher próbował znaleźć sposób odmienny zarówno od klasycznej statystyki (Neyman School), jak i od szkoły bayesowskiej (stąd słynne powiedzenie Savagea: „Fisher chciał zrobić omlet bayesowski (tj. używając CP) bez łamanie jaj bayesowskich ”). Folklor (bez dowodu) mówi: Fisher w swoich debatach zaatakował Neymana (z powodu błędu typu I i II oraz CI), nazywając go raczej gościem Kontroli Jakości niż Naukowiec , ponieważ metody Neymana nie uzależniały od obserwowanych danych, zamiast tego przyjrzał się wszystkim możliwym powtórzeniom.

  7. Statystycy chcą również zastosować zasadę wystarczalności ( SP) oprócz CP. Ale SP i CP razem implikują zasadę wiarygodności (LP) (por. Birnbaum, JASA, 1962), tj. Dane CP i SP należy zignorować przestrzeń próbną i spojrzeć tylko na funkcję wiarygodności. Zatem wystarczy spojrzeć na podane dane, a NIE spojrzeć na całą przestrzeń próbki (patrzenie na całą przestrzeń próbki jest w pewien sposób podobne do wielokrotnego próbkowania). Doprowadziło to do koncepcji takiej jak Observed Fisher Information (por. Efron i Hinkley, AS, 1978), która mierzy informacje o danych z częstej perspektywy. Ilość informacji w danych jest pojęciem bayesowskim (a zatem związanym z HPD), zamiast CI.

  8. Kiefer pod koniec lat siedemdziesiątych wykonał pewne fundamentalne prace nad CI, ale jego rozszerzenia nie stały się popularne. Dobrym źródłem odniesienia jest Berger („Could Fisher, Neyman i Jeffreys zgadzają się co do testowania hipotez”, Stat Sci, 2003).


Podsumowanie:

(jak wskazali Srikant i inni)
CI nie mogą być interpretowane jako prawdopodobieństwo i nie „Nie mów nic o nieznanym parametrze PODAJĄC obserwowane dane. CI to stwierdzenia dotyczące powtarzanych eksperymentów.

HPD to przedziały probabilistyczne oparte na późniejszym rozkładzie nieznanego parametru i mają interpretację opartą na prawdopodobieństwie w oparciu o podane dane.

Właściwość Frequentist (wielokrotne próbkowanie) jest pożądaną własnością i zarówno HPD (z odpowiednimi priorytetami), jak i CI mają je. Uwarunkowanie HPD na podanych danych również przy udzielaniu odpowiedzi na pytania dotyczące nieznanego parametru

(Cel NIE Subiektywny) Bayesiści zgadzają się z klasycznymi statystykami, że istnieje tylko PRAWDA wartość parametru. Jednak oba różnią się sposobem, w jaki wnioskują o tym prawdziwym parametrze.

Bayesowskie HPD dają nam dobry sposób na uwarunkowanie danych, ale jeśli nie zgadzają się z częstym właściwości CI nie są zbyt użyteczne (analogia: osoba, która używa HPD (z niektórymi wcześniej) bez dobrej częstości, skazana jest na zagładę jak stolarz, któremu zależy tylko na młotku i zapomina o śrubokręcie)

Nareszcie w tym wątku widziałem ludzi (komentarze dr Jorisa: „… z założeniami wynikają rozproszona wcześniejsza, tj. całkowity brak wiedzy na temat prawdziwego parametru”), którzy rozmawiali o brak wiedzy o tym, że prawdziwy parametr jest równoważny z użyciem rozproszonego wcześniejszego. NIE „NIE wiem, czy mogę się zgodzić ze stwierdzeniem (dr Keith się ze mną zgadza). Na przykład w przypadku podstawowych modeli liniowych niektóre rozkłady można uzyskać, używając wcześniejszego jednolitego (niektórzy nazywają go rozproszonym). NIE oznacza to, że jednolita dystrybucja może być traktowana jako NISKA INFORMACJA WSTĘPNA. Ogólnie rzecz biorąc, poprzedni brak informacji (cel) nie oznacza, że zawiera mało informacji o parametrze.

Uwaga: wiele z tych punktów dotyczy na wykładach jednego z wybitnych bayesistów. Nadal jestem studentem i mogłem go w jakiś sposób źle zrozumieć. Proszę z góry przyjąć moje przeprosiny.

Komentarze

  • ” osoba często odwiedzająca JEST ODPOWIEDNIA, aby przegrać ” Patrząc na najczęściej głosowaną odpowiedź, ' d załóżmy, że zależy to od funkcji narzędzia (np. nie, jeśli trwa optymalizacja żalu). Intuicyjnie może to również zależeć od zdolności określenia wcześniejszej funkcji …
  • ” częstość JEST POWIĄZANA, aby stracić ” … * pod warunkiem posiadania odpowiedniego wcześniejszego * (co generalnie nie jest takie łatwe) Doskonały przykład: uzależnieni od hazardu są na 99% pewni, że tym razem ich szczęście się zmieni. Ci, którzy włączają to wcześniej ich analiza decyzji zwykle nie radzi sobie tak dobrze na dłuższą metę.
  • Nie ' nie sądzę, aby skracać przedziały ufności jako CI w odpowiedzi na temat rozróżnienia między wiarygodnymi przedziałami i przedziałami ufności.

Odpowiedź

Zawsze fajnie się angażować w odrobinie filozofii. Bardzo podoba mi się odpowiedź Keitha, jednak powiedziałbym, że zajmuje on stanowisko „Pan zapominalski Bayesia”. Złe pokrycie, gdy typ B i typ C może wystąpić tylko wtedy, gdy zastosuje ten sam rozkład prawdopodobieństwa w każdym próba i odmawia aktualizacji swojego (jej) przeora.

Możesz to zobaczyć dość wyraźnie, ponieważ słoiki typu A i typu D dokonują „określonych prognoz”, że tak powiem (dla 0-1 i 2- 3 frytki), podczas gdy słoiki typu B i C zasadniczo zapewniają równomierne rozłożenie frytek. Tak więc przy powtórzeniach eksperymentu z jakimś stałym „prawdziwym słojem” (lub jeśli spróbowaliśmy innego herbatnika), równomierne rozmieszczenie frytek zapewni dla słoików typu B lub C.

A z „praktycznego” punktu widzenia, typy B i C wymagałyby ogromnej próbki, aby móc je rozróżnić. Rozbieżności KL między dwoma dystrybucjami to $ KL ( B || C) \ ok. 0,006 \ ok. KL (C || B) $. Jest to dywergencja równoważna dwóm rozkładom normalnym, oba z wariancją 1 $ i różnicą oznacza $ \ sqrt {2 \ times 0,006} = 0,11 $. Nie można więc oczekiwać, że będziemy w stanie dokonać rozróżnienia na podstawie jednej próbki (w normalnym przypadku potrzebowalibyśmy około 320 wielkości próby, aby wykryć tę różnicę na poziomie istotności 5%). Możemy zatem zasadnie załamać typ B i wpisz C razem, aż będziemy mieli wystarczająco dużą próbkę.

A teraz co się dzieje z tymi wiarygodnymi przedziałami? Tak naprawdę mamy teraz 100% pokrycie „B lub C”! A co z częstymi interwałami ? Pokrycie pozostaje niezmienione, ponieważ wszystkie przedziały zawierały zarówno B i C, jak i żadne, więc nadal podlega krytyce w odpowiedzi Keitha – zaobserwowano 59% i 0% dla 3 i 0 żetonów.

Ale bądźmy tutaj pragmatyczni.Jeśli zoptymalizujesz coś w odniesieniu do jednej funkcji, nie można oczekiwać, że zadziała dobrze dla innej funkcji. Jednak zarówno przedziały częstościowe, jak i bayesowskie osiągają średnio pożądany poziom wiarygodności / pewności. Mamy $ (0+ 99 + 99 + 59 + 99) /5=71.2$ – czyli bywalca ma odpowiednią średnią wiarygodność.Mamy też $ (98 + 60 + 66 + 97) /4=80.3$ – bayesian ma odpowiednie średnie pokrycie.

Inną kwestią, którą chciałbym podkreślić, jest to, że metoda bayesowska nie mówi, że „parametr jest losowy”, przypisując rozkład prawdopodobieństwa. W przypadku metody bayesowskiej (przynajmniej dla mnie) rozkład prawdopodobieństwa jest opisem tego, co wiadomo o tym parametrze. Pojęcie „losowości” tak naprawdę nie istnieje w teorii bayesowskiej, tylko pojęcia „wiedzieć” i „nie wiedzieć”. „Znane” wchodzą do warunków, a „niewiadome” są co obliczamy prawdopodobieństwa, jeśli jest to interesujące, i marginalizujemy, jeśli jest to uciążliwe. Tak więc wiarygodny przedział opisuje co wiadomo o ustalonym parametrze, uśredniając to, czego o nim nie wiemy. Gdybyśmy więc zajęli stanowisko osoby, która zapakowała słoik z ciastkami i wiedziała, że jest to typ A, ich przedział wiarygodności wyniósłby po prostu [A], niezależnie od próbki i bez względu na to, ile próbek pobrano. I byłyby w 100% dokładne!

Przedział ufności jest oparty na „losowości” lub zmienności, która istnieje w różnych możliwych próbkach. W związku z tym jedyną zmianą, którą biorą pod uwagę, jest ta w próbie. Tak więc przedział ufności pozostaje niezmieniony dla osoby, która zapakowała słoik z ciasteczkami i zauważyła, że był to typ A.Więc jeśli wyciągnąłbyś herbatnik z 1 żetonem ze słoika typu A, osoba często stwierdziłaby z 70% pewnością, nie A, mimo że wiedzą, że słoik jest typu A! (jeśli zachowali swoją ideologię i zignorowali zdrowy rozsądek). Aby zobaczyć, że tak jest, zwróć uwagę, że nic w tej sytuacji nie zmieniło rozkładu próbkowania – po prostu przyjęliśmy perspektywę innej osoby z informacjami o parametrze nie opartymi na danych.

Pewność interwały zmienią się tylko wtedy, gdy zmienią się dane lub zmieni się model / rozkład próbkowania. przedziały wiarygodności mogą się zmienić, jeśli weźmie się pod uwagę inne istotne informacje.

Zauważ, że to szalone zachowanie z pewnością nie jest tym, co faktycznie zrobiłby rzecznik przedziałów ufności; ale pokazuje słabość filozofii leżącej u podstaw metody w konkretnym przypadku. Przedziały ufności działają najlepiej, gdy nie wiesz zbyt wiele o parametrze poza informacjami zawartymi w zestawie danych. Co więcej, przedziały wiarygodności nie będą w stanie znacznie poprawić przedziałów ufności, chyba że istnieją wcześniejsze informacje, które przedział ufności może „Nie biorę pod uwagę lub znalezienie wystarczających i pomocniczych statystyk jest trudne.

Komentarze

  • Mogę ' t powiedzieć, że zrozumiałem wyjaśnienie Keitha ' na temat przykładu słoika, krótkie pytanie: powtarzam eksperyment $ m $ razy, zebrałem $ m $ różnych próbek, więc teraz ' obliczono $ mln $ różnych CI (każdy z 95% poziomem ufności), teraz co to jest CI? Czy oznacza to, że 95% $ mln CI powinno pokrywać prawdziwą wartość?
  • @loganecolss – to rzeczywiście prawda, ale tylko w granicach od $ m \ do \ infty $. Jest to zgodne ze standardowym prawdopodobieństwem ” ” = ” długoterminowa częstotliwość ” interpretacja podstawowych elementów CI.
  • Tak, w granicach. Zatem dla jednej lub tylko kilku próbek CI nie ' nic nie znaczą, prawda? W takim razie po co ' obliczać CI, jeśli ' nie mam ton próbek?
  • @loganecolss – to ', dlaczego ' mam język bayesowski.
  • @nazka – coś w rodzaju. Powiedziałbym, że zawsze najlepiej jest stosować podejście bayesowskie, niezależnie od ilości posiadanych danych. Jeśli można to dobrze przybliżyć za pomocą częstej procedury, użyj tego. Bayesian nie jest synonimem slow.

Odpowiedź

Jak rozumiem: wiarygodny interwał to stwierdzenie zakresu wartości statystyki będącej przedmiotem zainteresowania, które pozostają wiarygodne, biorąc pod uwagę konkretną próbkę danych, które faktycznie zaobserwowaliśmy. Przedział ufności to określenie częstotliwości, z jaką prawdziwa wartość znajduje się w przedziale ufności, gdy eksperyment jest powtarzany dużą liczbę razy, za każdym razem z inną próbką danych z tej samej populacji bazowej.

Zwykle pytanie, na które chcemy odpowiedzieć, brzmi „jakie wartości statystyki są zgodne z obserwowanymi danymi”, a wiarygodny przedział daje bezpośrednią odpowiedź na to pytanie – prawdziwa wartość statystyki leży w 95% wiarygodnym przedziale z prawdopodobieństwem 95%.Przedział ufności nie daje bezpośredniej odpowiedzi na to pytanie; nie jest poprawne twierdzenie, że prawdopodobieństwo, iż prawdziwa wartość statystyki mieści się w przedziale ufności 95%, wynosi 95% (chyba że zdarza się, że pokrywa się z przedziałem wiarygodnym). Jednak jest to bardzo częsta błędna interpretacja częstego przedziału ufności, ponieważ jest to interpretacja, która byłaby bezpośrednią odpowiedzią na to pytanie.

Artykuł Jaynea, który omawiam w innym pytaniu, daje dobry przykład to (przykład # 5), gdzie konstruowany jest idealnie poprawny przedział ufności, gdzie konkretna próbka danych, na której jest ona oparta, wyklucza jakąkolwiek możliwość, że prawdziwa wartość statystyki będzie w 95% przedziale ufności! problem, jeśli przedział ufności jest nieprawidłowo zinterpretowany jako wyliczenie wiarygodnych wartości statystyki na podstawie określonej próbki, którą obserwowaliśmy.

Ostatecznie chodzi o „konie dla kursów ”, a który interwał jest najlepszy, zależy od pytania, na które chcesz odpowiedzieć – po prostu wybierz metodę, która bezpośrednio odpowiada na to pytanie.

Podejrzewam, że przedziały ufności są bardziej przydatne podczas analizowania [określonych] powtarzalnych eksperymentów (ponieważ to tylko założenie leżące u podstaw przedziału ufności) i wiarygodne przedziały lepiej, gdy analizuję dane obserwacyjne, ale to tylko opinia (w mojej pracy używam obu rodzajów przedziałów, ale nie opisałbym siebie jako eksperta w żadnej z nich).

Komentarze

  • Problem z przedziałami ufności w powtarzanych eksperymentach polega na tym, że aby zadziałały, warunki powtarzalnego eksperymentu muszą pozostać takie same (i kto by w to uwierzył?), podczas gdy interwał bayesowski (jeśli jest właściwie stosowany) warunkuje obserwowane dane, a tym samym dopuszcza zmiany, które zachodzą w świecie rzeczywistym (poprzez dane). Myślę, że to reguły warunkowania statystyki bayesowskiej sprawiają, że tak trudno jest osiągnąć lepsze wyniki (myślę, że jest to niemożliwe: można osiągnąć tylko równoważność) i automatyczna machina, którą osiąga, sprawia, że wydaje się takie sprytne.

Odpowiedź

Zauważyłem, że wiele interpretacji dotyczących przedziału ufności i wiarygodnego zestawu jest błędnych. Na przykład, przedziału ufności nie można wyrazić w tym formacie $ P (\ theta \ in CI) $. Jeśli przyjrzysz się uważnie „dystrybucjom” w wnioskowaniu często i bayesowskim, zobaczysz prace Frequentystów nad rozkładem próbkowania na danych, podczas gdy bayesowski działa na (późniejszym) rozkładzie parametru. Są one zdefiniowane w zupełnie innych przestrzeniach próbek i algebrze Sigma.

Tak, więc możesz powiedzieć „Jeśli będziesz powtarzać eksperyment wiele razy, około 95% z 95% przedziałów przedziałów ufności pokryje prawdziwy parametr”. Chociaż w bayesowskim można powiedzieć, że „prawdziwa wartość statystyki leży w 95% wiarygodnym przedziale z 95% prawdopodobieństwem”, to jednak 95% prawdopodobieństwo (w bayesowskim) samo w sobie jest tylko szacunkiem. (Pamiętaj, że jest to oparte na rozkładzie warunków dla tych konkretnych danych, a nie na rozkładzie próbkowania). Ten estymator powinien zawierać błąd losowy wynikający z losowej próby.

Bayesian stara się uniknąć problemu błędu typu I. Bayesian zawsze mówi, że mówienie o błędzie typu I w bayesowskim nie ma sensu. To nie jest do końca prawdą. Statystycy zawsze chcą zmierzyć możliwość lub błąd, że „Twoje dane sugerują podjęcie decyzji, ale populacja sugeruje inaczej”. Na to Bayesian nie może odpowiedzieć (szczegóły tutaj pominięto). Niestety, to może być najważniejsza rzecz, na którą statystycy powinni odpowiedzieć. Statystycy nie tylko sugerują decyzję. Statystycy powinni również być w stanie określić, jak bardzo decyzja może pójść źle.

Muszę wymyślić poniższą tabelę i terminy, aby wyjaśnić koncepcję. Mam nadzieję, że to pomoże wyjaśnić różnicę między przedziałem ufności a zestawem wiarygodnym.

Zwróć uwagę, że późniejsza dystrybucja to $ P (\ theta_0 | Data_n) $, gdzie $ \ theta_0 $ jest zdefiniowane z poprzedniego $ P (\ theta_0) $. W Frequentist rozkład próbkowania to $ P (Data_n; \ theta) $. Rozkład próbkowania $ \ hat {\ theta} $ to $ P (\ hat {\ theta} _n; \ theta) $. Indeks dolny $ n $ to rozmiar próbki. Proszę nie używać notacji $ P (Data_n | \ theta) $ do przedstawienia rozkładu próbkowania w Frequentist. Możesz mówić o losowych danych w $ P (Data_n; \ theta) $ i $ P (\ hat {\ theta} _n; \ theta) $, ale nie możesz mówić o losowych danych w $ P (\ theta_0 | Data_n) $.

Przedział ufności a zestaw wiarygodności

„???????” wyjaśnia, dlaczego nie jesteśmy w stanie ocenić błędu typu I (lub czegoś podobnego) w bayesowskim.

Należy również pamiętać, że w pewnych okolicznościach wiarygodne zestawy mogą być użyte do przybliżenia przedziałów ufności. Jednak jest to tylko przybliżenie matematyczne. Interpretacja powinna iść z częstością. Interpretacja bayesowska w tym przypadku już nie działa.


Thylacoleo „notacja w $ P (x | \ theta) $ nie jest częsta. Nadal jest to Bayesowska. notacja powoduje fundamentalny problem w teorii miar, gdy mówimy o częstościach.

Zgadzam się z wnioskiem torbaczem Dikran . Jeśli jesteś Recenzent FDA, zawsze chcesz wiedzieć, czy zatwierdzasz wniosek o lek, ale lek w rzeczywistości nie jest skuteczny. Jest to odpowiedź, której Bayesian nie może udzielić, przynajmniej w klasycznym / typowym języku bayesowskim.

Odpowiedź

Ogólne, spójne i wiarygodne regiony. http://dx.doi.org/10.6084/m9.figshare.1528163 z kodem w http://dx.doi.org/10.6084/m9.figshare.1528187

Zawiera opis wiarygodnych odstępów czasu i pewności przedziały dla wyboru zbioru wraz z ogólnym kodem R do obliczania zarówno przy danej funkcji wiarygodności, jak i niektórych obserwowanych danych. Ponadto proponuje statystyki testowe, które dają wiarygodne i spójne ze sobą przedziały ufności o optymalnym rozmiarze.

Krótko mówiąc, unikamy formuł. Wiarygodny przedział bayesowski jest oparty na prawdopodobieństwie parametrów, biorąc pod uwagę dane . Gromadzi parametry o dużym prawdopodobieństwie w wiarygodnym zestawie / przedziale. 95% wiarygodny przedział zawiera parametry, które łącznie mają prawdopodobieństwo 0,95 dla danych.

Częstotliwy przedział ufności jest oparty na prawdopodobieństwo danych z określonymi parametrami . Dla każdego (prawdopodobnie nieskończenie wielu) parametru, najpierw generuje zestaw danych, które prawdopodobnie zostaną zaobserwowane przy danym parametrze. Następnie sprawdza dla każdego parametru, czy wybrane dane o wysokim prawdopodobieństwie zawierają obserwowane dane. Jeżeli dane o wysokim prawdopodobieństwie zawierają obserwowane dane, odpowiedni parametr jest dodawany do przedziału ufności. Zatem przedział ufności jest zbiorem parametrów, dla których nie możemy wykluczyć możliwości, że parametr wygenerował dane. Daje to regułę, która w przypadku wielokrotnego stosowania do podobnych problemów 95% przedział ufności będzie zawierał prawdziwą wartość parametru w 95% przypadków.

95% zestaw wiarygodny i 95% zestaw ufności dla przykład z ujemnego rozkładu dwumianowego 95% zestaw wiarygodny i 95% poziom ufności ustawiony dla ujemnego rozkładu dwumianowego

Komentarze

  • Opis przedziałów ufności jest nieprawidłowy. ” 95% ” pochodzi z prawdopodobieństwa, że próbka z populacji będzie iloczynem przedziału, który zawiera prawdziwą wartość parametru.
  • @jlimahaverford – Opis jest poprawny, tak jak Twój. Aby utworzyć link do tego, co opisujesz, dodałem ” To daje regułę, która w przypadku wielokrotnego stosowania do podobnych problemów przedział wiarygodności 95% będzie zawierał prawdziwą wartość parametru w 95 % przypadków. ”
  • Nie mówiłem o twoim opisie wiarygodnych przedziałów. Mówiłem o przedziałach ufności. ' Teraz zauważam, że w połowie akapitu na temat przedziałów ufności znów zaczynasz mówić o wiarygodności i myślę, że to pomyłka. Ważną ideą jest to, że ” Gdyby była to prawdziwa wartość parametru, jakie jest prawdopodobieństwo, że narysowałbym próbkę tak ekstremalną lub większą. Jeśli odpowiedź jest większa niż 5%, ' w przedziale ufności. ”
  • @jlimahaverford – aggree i poprawione – dziękuję.
  • hmm, nie widzę poprawek.

Odpowiedź

To jest bardziej komentarz, ale za długi. W następującym artykule: The Dawning of the Age of Stochasticity (David Mumford) Mumford ma następujący interesujący komentarz:

Podczas gdy wszystkie te naprawdę ekscytujące zastosowania były wykorzystywane w statystykach, większość samych statystyków, na czele z Sir RA Fisher, wiązali ręce za plecami, upierając się, że statystyki nie mogą być używane w żadnych, ale całkowicie powtarzalnych sytuacjach, a następnie tylko przy użyciu danych empirycznych. To jest tak zwana szkoła częstoistyczna, która walczyła ze szkołą bayesowską, która wierzyła że można by użyć uprzedzeń i znacznie rozszerzyć stosowanie wnioskowania statystycznego Podejście to zaprzecza, że wnioskowanie statystyczne może mieć cokolwiek wspólnego z prawdziwymi myślami, ponieważ sytuacje z życia codziennego są zawsze pogrzebane w zmiennych kontekstowych i nie można ich powtórzyć.Na szczęście szkoła bayesowska nie umarła całkowicie, kontynuowana przez DeFinetti, E.T. Jaynes, jarzy inni.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *