In einer Gruppe von Studenten gibt es 2 von 18 das sind Linkshänder. Finden Sie die posteriore Verteilung von Linkshändern in der Bevölkerung unter der Annahme eines nicht informativen Prior. Fassen Sie die Ergebnisse zusammen. Laut Literatur sind 5-20% der Menschen Linkshänder. Berücksichtigen Sie diese Informationen in Ihrem Prior und berechnen Sie den neuen Posterior.
Ich weiß, dass hier die Beta-Distribution verwendet werden sollte. Erstens mit den Werten $ \ alpha $ und $ \ beta $ als 1? Die Gleichung, die ich im Material für posterior gefunden habe, lautet
$$ \ pi (r \ vert Y) \ propto r ^ {(Y + −1)} \ times (1 – r) ^ {(N – Y + −1)} \\ $$
$ Y = 2 $ , $ N = 18 $
Warum ist das $ r $ in der Gleichung? ( $ r $ bezeichnet den Anteil der Linkshänder). Es ist unbekannt, wie kann es also in dieser Gleichung sein? Für mich ist es lächerlich, $ r $ bei $ Y $ zu berechnen und $ r $ in der Gleichung, die $ r $ ergibt. Nun, mit der Stichprobe $ r = 2/18 $ war das Ergebnis $ 0,0019 $ . Daraus sollte ich den $ f $ ableiten?
Die Gleichung, die einen erwarteten Wert von $ R ergibt $ bei bekanntem $ Y $ und $ N $ funktionierte besser und gab mir $ 0,15 $ was ungefähr richtig klingt. Die Gleichung lautet $ E (r | X, N, α, β) = (α + X) / (α + β + N) $ mit dem Wert $ 1 $ zugewiesen an $ α $ und $ β $ . Welche Werte sollte ich $ α $ und $ β $ angeben, um vorherige Informationen zu berücksichtigen? P. >
Einige Tipps wären sehr dankbar. Ein allgemeiner Vortrag über frühere und hintere Verteilungen würde auch nicht schaden (ich habe ein vages Verständnis dafür, was sie sind, aber nur vage). Denken Sie auch daran, dass ich kein sehr fortgeschrittener Statistiker bin (eigentlich bin ich ein Politikwissenschaftler in meinem Hauptberuf), der so fortgeschritten ist Mathematik wird wahrscheinlich über meinen Kopf fliegen.
Kommentare
- Haben Sie sich dies angesehen Frage und Antwort ?
- Die Phrase “ Finden Sie die hintere Verteilung von Linkshändern “ macht keinen Sinn. Zufällige Variablen haben Verteilungen und “ Linkshänder “ ist nicht ‚ ta rv Ich nehme an, Sie beabsichtigen, “ die hintere Verteilung von dem Anteil von zu ermitteln Linkshänder „. ‚ ist wichtig, solche Details nicht zu beschönigen, sondern klar zu machen Worüber Sie ‚ tatsächlich sprechen.
- Wenn ich Ihre Frage lese, scheint es mir, dass Ihr Problem nicht ‚ weniger Bayessche Statistiken als nur das Verstehen von Wahrscheinlichkeitsverteilungen; ‚ s ist immer der Fall, dass das Argument einer Verteilungsfunktion (oder einer Wahrscheinlichkeitsfunktion, wie Sie sie dort haben) eine Funktion eines Unbekannten (des Zufalls) ist Variable). Das ‚ ist ganz und gar der Punkt von ihnen.
- Kommentare sind nicht für eine ausführliche Diskussion gedacht. Diese Konversation wurde in den Chat verschoben .
Antwort
Lassen Sie mich zunächst erklären, was ein -Konjugat vor ist. Ich werde dann die Bayesschen Analysen anhand Ihres spezifischen Beispiels erläutern. Die Bayessche Statistik umfasst die folgenden Schritte:
- Definieren Sie die vorherige Verteilung , die Ihre subjektiven Vorstellungen über einen Parameter enthält (in Ihrem Beispiel ist der interessierende Parameter der Anteil von links-). Hander). Der Prior kann „nicht informativ“ oder „informativ“ sein (es gibt jedoch keinen Prior, der keine Informationen enthält, siehe die Diskussion hier ).
- Sammeln Sie Daten.
- Aktualisieren Sie Ihre vorherige Verteilung mit den Daten unter Verwendung des Bayes-Theorems, um eine posteriore Verteilung zu erhalten. Die posteriore Verteilung ist eine Wahrscheinlichkeitsverteilung, die Ihre aktualisierten Überzeugungen über den Parameter darstellt Nachdem Sie die Daten gesehen haben.
- Analysieren Sie die posteriore Verteilung und fassen Sie sie zusammen (Mittelwert, Median, SD, Quantile, …).
Die Grundlage aller Bayesschen Statistiken ist der Bayessche Satz, der
$$ \ mathrm {posterior} \ propto ist \ mathrm {prior} \ times \ mathrm {Wahrscheinlichkeit} $$
In Ihrem Fall ist die Wahrscheinlichkeit binomisch. Wenn die vorherige und die hintere Verteilung in derselben Familie liegen, Der Prior und der Posterior werden als konjugierte Verteilungen bezeichnet. Die Beta-Verteilung ist ein konjugierter Prior, da der Posterior auch eine Beta-Verteilung ist. Wir sagen, dass die Beta-Verteilung die konjugierte Familie für die Binomialwahrscheinlichkeit ist Konjugatanalysen sind praktisch, treten jedoch bei realen Problemen selten auf. In den meisten Fällen muss die posteriore Verteilung numerisch über MCMC ermittelt werden (unter Verwendung von Stan, WinBUGS, OpenBUGS, JAGS, PyMC oder einem anderen Programm).
Wenn die vorherige Wahrscheinlichkeitsverteilung nicht in 1 integriert wird, wird sie als unpassend prior bezeichnet. Wenn sie in 1 integriert wird, wird sie als richtige Priorität bezeichnet. In den meisten Fällen , ein unpassender pri oder stellt kein großes Problem für Bayessche Analysen dar. Die posteriore Verteilung muss jedoch korrekt sein, dh der posteriore muss sich in 1 integrieren.
Diese Faustregeln ergeben sich direkt aus der Art des Bayesschen Analyseverfahrens:
- Wenn der Prior nicht informativ ist, wird der Posterior stark von den Daten bestimmt (der Posterior ist datengesteuert).
- Wenn der Prior informativ ist, ist der Posterior eine Mischung aus dem Prior und Die Daten
- Je informativer der Prior, desto mehr Daten benötigen Sie, um Ihre Überzeugungen sozusagen zu „ändern“, da der Posterior stark von den vorherigen Informationen abhängt.
- Wenn Sie Haben Sie viele Daten, werden die Daten die posteriore Verteilung dominieren (sie werden die vorherige überwältigen).
Ein ausgezeichneter Überblick über einige mögliche „informative“ und „nicht informative“ Prioritäten für die Beta-Verteilung kann finden Sie in diesem Beitrag .
Angenommen, Ihre vorherige Beta ist $ \ mathrm {Beta} (\ pi_ {LH} | \ alpha, \ beta) $ wobei $ \ pi_ {LH} $ ist der Anteil der Linkshänder. Um die vorherigen Parameter $ \ alpha $ und $ \ beta $ anzugeben, ist es hilfreich, den Mittelwert zu kennen und Varianz der Beta-Verteilung (zum Beispiel, wenn Sie möchten, dass Ihr Vorgänger einen bestimmten Mittelwert und eine bestimmte Varianz hat). Der Mittelwert ist $ \ bar {\ pi} _ {LH} = \ alpha / (\ alpha + \ beta) $ . Immer wenn $ \ alpha = \ beta $ ist, ist der Mittelwert $ 0,5 $ . Die Varianz der Beta-Verteilung ist $ \ frac {\ alpha \ beta} {(\ alpha + \ beta) ^ {2} (\ alpha + \ beta + 1)} $ . Das Praktische ist nun, dass Sie sich $ \ alpha $ und $ \ beta $ wie zuvor vorstellen können beobachtete (Pseudo-) Daten, nämlich $ \ alpha $ Linkshänder und $ \ beta $ rechts- hander aus einer (Pseudo-) Stichprobe der Größe $ n_ {eq} = \ alpha + \ beta $ . Die Verteilung $ \ mathrm {Beta} (\ pi_ {LH} | \ alpha = 1, \ beta = 1) $ ist die Einheitlichkeit (alle Werte der $ \ pi_ {LH} $ sind gleich wahrscheinlich) und entspricht der Beobachtung von zwei Personen, von denen eine Linkshänder und eine Rechtshänder ist.
Die hintere Beta-Verteilung ist einfach $ \ mathrm {Beta} (z + \ alpha, N – z + \ beta) $ wobei $ N $ ist die Größe der Stichprobe und $ z $ ist die Anzahl der Linkshänder in der Stichprobe. Der hintere Mittelwert von $ \ pi_ {LH} $ ist daher $ (z + \ alpha) / (N + \ alpha + \ beta) $ . Um die Parameter der posterioren Beta-Verteilung zu finden, fügen wir $ \ alpha $ infach $ z $ Linkshänder hinzu / span> und $ Nz $ Rechtshänder zu $ \ beta $ . Die hintere Varianz ist $ \ frac {(z + \ alpha) (N-z + \ beta)} {(N + \ alpha + \ beta) ^ {2} (N + \ alpha + \ Beta + 1)} $ . Beachten Sie, dass ein sehr informativer Prior auch zu einer geringeren Varianz der posterioren Verteilung führt (die folgenden Grafiken veranschaulichen den Punkt gut).
In Ihrem Fall ist $ z = 2 $ und $ N = 18 $ und Ihr Prior ist die Uniform, die nicht informativ ist, also $ \ alpha = \ beta = 1 $ . Ihre hintere Verteilung ist daher $ Beta (3, 17) $ . Der hintere Mittelwert ist $ \ bar {\ pi} _ {LH} = 3 / (3 + 17) = 0,15 $ .Hier ist ein Diagramm, das den Prior, die Wahrscheinlichkeit der Daten und den posterioren
Sie sehen, dass Ihre hintere Verteilung vollständig von den Daten bestimmt wird, da Ihre vorherige Verteilung nicht aussagekräftig ist. Dargestellt ist auch das höchste Dichteintervall (HDI) für die posteriore Verteilung. Stellen Sie sich vor, Sie legen Ihre hintere Verteilung in ein 2D-Becken und füllen Wasser ein, bis 95% der Verteilung über der Wasserlinie liegen. Die Punkte, an denen sich die Wasserlinie mit der posterioren Verteilung schneidet, bilden den 95% -HDI. Jeder Punkt innerhalb des HDI hat eine höhere Wahrscheinlichkeit als jeder Punkt außerhalb des HDI. Außerdem enthält der HDI immer den Peak der posterioren Verteilung (d. H. Den Modus). Der HDI unterscheidet sich von einem zu 95% glaubwürdigen Intervall mit gleichem Schwanz, bei dem 2,5% von jedem Schwanz des Seitenzahns ausgeschlossen sind (siehe hier ).
Für Ihre zweite Aufgabe werden Sie gebeten, die Informationen zu berücksichtigen, dass 5 bis 20% der Bevölkerung Linkshänder sind. Es gibt verschiedene Möglichkeiten, dies zu tun. Am einfachsten ist es zu sagen, dass die vorherige Beta-Verteilung vorhanden sein sollte ein Mittelwert von $ 0.125 $ , der der Mittelwert von $ 0.05 $ und $ 0.2 $ . Aber wie wählt man $ \ alpha $ und $ \ beta $ von Die vorherige Beta-Verteilung? Zunächst möchten Sie, dass Ihr Mittelwert der vorherigen Verteilung $ 0.125 $ aus einer Pseudo-Stichprobe äquivalenter Stichprobengröße $ n_ {eq} $ . Allgemeiner, wenn Sie möchten, dass Ihr Vorgänger einen Mittelwert $ m $ mit einer Pseudo-Stichprobengröße $ n_ {eq} $ , dem entsprechenden $ \ alpha $ und $ \ beta $ -Werte sind: $ \ alpha = mn_ {eq} $ und $ \ beta = (1-m) n_ {eq} $ . Jetzt müssen Sie nur noch die Pseudo-Stichprobengröße $ n_ {eq} $ auswählen, die bestimmt, wie sicher Sie mit Ihren vorherigen Informationen sind. Nehmen wir an, Sie sind sich Ihrer vorherigen Informationen sehr sicher und setzen $ n_ {eq} = 1000 $ . Die Parameter Ihrer vorherigen Verteilung sind daher $ \ alpha = 0,125 \ cdot 1000 = 125 $ und $ \ beta = (1 – 0,125) \ cdot 1000 = 875 $ Die hintere Verteilung ist $ \ mathrm {Beta} (127, 891) $ mit einem Mittelwert von ungefähr $ 0,125 $ , was praktisch dem vorherigen Mittelwert von $ 0.125 $ entspricht. Die vorherigen Informationen dominieren den posterioren Bereich (siehe folgende Grafik):
Wenn Sie sich bezüglich der vorherigen Informationen weniger sicher sind, können Sie den
Eine fortgeschrittenere Methode zum Einbeziehen der vorherigen Informationen wäre zu sagen, dass das Quantil $ 0.025 $ Ihrer vorherigen Beta-Verteilung ungefähr $ 0.05 $ und das Quantil $ 0.975 $ sollten ungefähr $ 0.2 $ . Dies entspricht der Aussage, dass Sie zu 95% sicher sind, dass der Anteil der Linkshänder an der Bevölkerung zwischen 5% und 20% liegt. Die Funktion beta.select
im R-Paket LearnBayes
berechnet den entsprechenden $ \ alpha $ und $ \ beta $ -Werte einer Beta-Verteilung, die solchen Quantilen entspricht. Der Code lautet
library(LearnBayes) quantile1=list(p=.025, x=0.05) # the 2.5% quantile should be 0.05 quantile2=list(p=.975, x=0.2) # the 97.5% quantile should be 0.2 beta.select(quantile1, quantile2) [1] 7.61 59.13
Es scheint, dass eine Beta-Distribution mit den Parametern $ \ alpha = 7.61 $ und $ \ beta = 59.13 $ hat die gewünschten Eigenschaften. Der vorherige Mittelwert ist $ 7.61 / (7.61 + 59,13) \ ca. 0,114 $ , was nahe am Mittelwert Ihrer Daten liegt ( $ 0,111 $ ). Wiederum enthält diese vorherige Verteilung die Information einer Pseudo-Stichprobe mit einer äquivalenten Stichprobengröße von ungefähr $ n_ {eq} \ ca. 7,61 + 59,13 \ ca. 66,74 $ . Die hintere Verteilung ist $ \ mathrm {Beta} (9,61, 75,13) $ mit einem Mittelwert von $ 0,113 $ Dies ist vergleichbar mit dem Mittelwert der vorherigen Analyse unter Verwendung eines sehr informativen $ \ mathrm {Beta} (125, 875) $ vor. Hier ist das entsprechende Diagramm:
Siehe auch dieser Referenz für einen kurzen, aber imho guten Überblick über das Bayessche Denken und die einfache Analyse. Eine längere Einführung für konjugierte Analysen, insbesondere für Binomialdaten, finden Sie hier . Eine allgemeine Einführung in das Bayessche Denken finden Sie hier . Weitere Folien zu Aspekten der Baysian-Statistik finden Sie hier .
Kommentare
- Warum Wählen wir hier die Beta-Verteilung?
- @Metallica Der Hauptgrund ist, dass die Beta das -Konjugat vor der Binomialverteilung ist. Dies bedeutet, dass, wenn wir wie zuvor eine Beta wählen, der hintere ebenfalls Beta ist. Weitere Gründe sind, dass die Beta zwischen 0 und 1 liegt und sehr flexibel ist. Dazu gehört zum Beispiel die Uniform. Aber jede richtige Verteilung mit Unterstützung in $ (0,1) $ kann wie zuvor verwendet werden. ‚ ist nur, dass der hintere Teil schwieriger zu berechnen ist.
- Wenn die Graphen mit R? Würden Sie bitte R-Codes hinzufügen, um die obigen Grafiken zu generieren? Sie sind wirklich hilfreich. Danke!
- Ich dachte, ein nicht informativer Prior wäre Jeffreys ‚ s Prior $ \ alpha = \ beta = \ frac 1 2 $ … warum denkst du? Ist dies nicht der Fall?
- @meduz Genau genommen gibt es keinen echten “ uninformativen “ Prior. Ich möchte Sie auf die ausgezeichnete Antwort von Tim zu dieser Diskussion verweisen.
Antwort
Eine Beta-Verteilung mit $ \ alpha $ = 1 und $ \ beta $ = 1 entspricht einer gleichmäßigen Verteilung. Es ist also in der Tat einheitlich. Sie versuchen, Informationen über einen Parameter einer Verteilung zu finden (in diesem Fall den Prozentsatz der Linkshänder in einer Gruppe von Personen). Die Bayes-Formel lautet:
$ P (r | Y_ {1, …, n}) $ = $ \ frac {P (Y_ {1, …, n} | r) * P (r)} {\ int P (Y_ {1, …, n} | \ theta) * P (r)} $
, auf das Sie hingewiesen haben, ist proportional zu:
$ P (r | Y_ {1, …, n}) $ $ \ propto $ $ (Y_ {1, …, n} | r) * P (r) $
Im Grunde genommen beginnen Sie also mit Ihrer vorherigen Überzeugung über den Anteil der Linkshänder in der Gruppe (P (r), für das Sie „eine einheitliche Distanz verwenden), und dann die Daten berücksichtigen, die Sie sammeln, um Ihren Prior zu informieren (in diesem Fall ein Binomial. Entweder Sie sind Rechts- oder Linkshänder, also $ P (Y_ { 1, …, n} | r) $). Eine Binomialverteilung hat einen Beta-Konjugat-Prior, was bedeutet, dass die posteriore Verteilung $ P (r | Y_ {1, … n}) $, die Verteilung des Parameters nach Berücksichtigung der Daten, in derselben Familie wie der Prior liegt. r hier ist am Ende nicht unbekannt. (Und ehrlich gesagt war es nicht „vor dem Sammeln der Daten. Wir haben eine ziemlich gute Vorstellung vom Anteil der Linkshänder in der Gesellschaft.) Sie haben sowohl die vorherige Verteilung (Ihre Annahme von r) als auch Sie haben Daten gesammelt und füge die beiden zusammen. Der hintere Teil ist Ihre neue Annahme der Verteilung der Linkshänder nach Berücksichtigung der Daten. Sie nehmen also die Wahrscheinlichkeit der Daten und multiplizieren sie mit einer Uniform. Der erwartete Wert einer Beta-Distribution (wie das Poster lautet) ist $ \ frac {\ alpha} {\ alpha + \ beta} $. Als Sie anfingen, gingen Sie mit $ \ alpha $ = 1 und $ \ beta $ = 1 davon aus, dass der Anteil der Linkshänder auf der Welt $ \ frac {1} {2} $ betrug. Jetzt haben Sie Daten gesammelt, die 2 von 18 Linken haben. Sie haben einen Posterior berechnet. (noch eine Beta) Ihre $ \ alpha $ – und $ \ beta $ -Werte unterscheiden sich jetzt und ändern Ihre Vorstellung vom Verhältnis von Linken zu Rechten. Wie hat sich das geändert?
Antwort
Im ersten Teil Ihrer Frage werden Sie aufgefordert, einen geeigneten Prior für „r“ zu definieren „. Mit den vorliegenden Binomialdaten wäre es ratsam, eine Beta-Distribution zu wählen. Denn dann wird der Posterior eine Beta sein. Da die einheitliche Verteilung ein Sonderfall der Beta ist, können Sie vor „r“ die einheitliche Verteilung auswählen, damit jeder mögliche Wert von „r“ gleich wahrscheinlich ist.
Im zweiten Teil haben Sie die Informationen zur vorherigen Verteilung „r“.
Mit dieser Antwort erhalten Sie in der Antwort von @COOLSerdash die richtigen Anweisungen.
Vielen Dank, dass Sie diese Frage gestellt haben, und COOLSerdash, dass Sie eine richtige Antwort gegeben haben.