'信頼区間と信頼区間の違いは何ですか?

JorisとSrikantの交換ここで、(もう一度)自分の内部かどうか疑問に思いました信頼区間と信頼区間の違いの説明は正しいものでした。違いをどのように説明しますか?

回答

Iスリカントの説明に完全に同意します。よりヒューリスティックなスピンを与えるには:

古典的なアプローチでは、一般に、世界は一方向であると仮定し(たとえば、パラメーターに1つの特定の真の値がある)、結果として生じる結論に関係なく、実験を実行しようとします。パラメータの真の値-少なくともある程度の最小確率で正しいでしょう。

その結果、実験後の知識の不確実性を表現するために、頻度主義的アプローチは「信頼区間」を使用します-パラメータの真の値を最小の確率、たとえば95%で含めるように設計された値の範囲。頻度主義者は、100回の実験の実行ごとに開始から終了まで、結果の信頼区間の少なくとも95にパラメーターの真の値が含まれると予想されるように、実験と95%信頼区間の手順を設計します。他の5つは少し間違っているか、まったく意味がない可能性があります。正式に言えば、100の推論のうち95が正しい限り、アプローチに関する限り問題ありません(もちろん、わずかに間違っており、まったくナンセンスではありません。)

ベイジアンアプローチでは、問題の定式化が異なります。パラメータに1つの(不明な)真の値があると言う代わりに、ベイジアンメソッドはパラメータの値が固定されていると言いますが、事前確率分布として知られる、ある確率分布から選択されます。 (別の言い方をすれば、ベイジアンは、測定を行う前に、パラメーターの真の値が何であるかについて、信念状態と呼ばれる確率分布を割り当てます。)この「事前」は既知である可能性があります(試してみると想像してみてください)。 DMVからトラックサイズの全体的な分布がわかっている場合は、トラックのサイズを推定します)、またはそれは薄い空気から引き出された仮定である可能性があります。ベイズ推定はより単純です。いくつかのデータを収集し、データが与えられた場合にパラメーターのさまざまな値の確率を計算します。この新しい確率分布は、「事後確率」または単に「事後」と呼ばれます。ベイジアンアプローチは、確率の95%を含む事後確率分布の値の範囲を与えることによって不確実性を要約できます。これは「95%信頼区間」と呼ばれます。

ベイジアン党派は批判するかもしれません。次のような頻繁主義の信頼区間:「100回の実験のうち95回で真の値を含む信頼区間が得られた場合はどうなりますか?99回の実験は気にしません」私はしませんでした;私はこの実験を気にします私はしました。あなたのルール他の95が正しい限り、100のうち5つを完全にナンセンス[負の値、不可能な値]にすることができます。これは「ばかげている」です。

頻繁に熱心に取り組む人は、ベイズの信頼区間を批判する可能性があります。このように:「では、事後確率の95%がこの範囲に含まれているとしたらどうでしょうか?真の値がたとえば0.37の場合はどうなりますか?もしそうなら、あなたのメソッド、実行開始から終了までは、75%の確率で間違っています。あなたの応答は、「まあ、それは大丈夫です。以前によれば、値が0.37になることは非常にまれです」ということですが、そうかもしれませんが、パラメータの可能な任意の値に対して機能するメソッドが必要です。私はそれが持っていないパラメータの99の値を気にしません。私はそれが持っている1つの真の価値を気にしています。ちなみに、あなたの答えは、前の答えが正しい場合にのみ正しいです。気持ちがいいので、薄い空気から引き抜くだけで、かなり離れることができます。」

ある意味で、これらのパルチザンはお互いの批判において正しい」方法ですが、私は強く勧めますSrikantが説明しているように、違いについて数学的に考える必要があります。


これは、個別の例で違いを正確に示す、その講演の拡張例です。

いつ私は子供の頃、母がチョコチップクッキーの瓶を郵送で配達するように注文することで時々私を驚かせていました。配達会社は、タイプA、タイプB、タイプC、タイプDの4種類のクッキー瓶を在庫していました。 、そしてそれらはすべて同じトラックにあり、どのタイプが得られるかはわかりませんでした。各瓶には正確に100個のクッキーがありましたが、異なるクッキー瓶を区別する特徴は、クッキーごとのチョコレートチップのそれぞれの分布でした。瓶とランダムに均一に単一のクッキーを取り出した、これらはあなたが得る確率分布ですチップ数について:

代替テキスト

たとえば、タイプAのCookie jarには、70個のCookieと2個のCookieがあります。それぞれチップ、4チップ以上のクッキーはありません!タイプDのクッキージャーには、それぞれ1つのチップを備えた70個のクッキーがあります。各垂直列が確率質量関数であることに注意してください。jar= A、またはB、またはC、またはDであり、各列の合計が100であるとすると、取得するチップ数の条件付き確率です。

配達員が新しいクッキージャーを降ろすとすぐにゲームをするのが大好きでした。ジャーからランダムに1つのクッキーを取り出し、クッキーのチップを数えて、自分を表現しようとしました。不確実性-70%レベルで-どの瓶の可能性があります。したがって、パラメータの値であるjar(A、B、C、またはD)のIDです。推定。チップの数(0、1、2、3、または4)は、結果または観測値またはサンプルです。 。

元々、私は頻度主義の70%信頼区間を使用してこのゲームをプレイしました。このような間隔では、が関係なくパラメータの真の値。つまり、取得したcookie jarに関係なく、間隔は少なくとも70%の確率でその真の値をカバーします。

もちろん、間隔は次のとおりです。結果(行)をパラメーターの値のセット(列のセット)に関連付ける関数。ただし、信頼区間を構築して70%のカバレッジを保証するには、「垂直方向に作業する必要があります。 “-各列を順番に見て、確率質量関数の70%がカバーされていることを確認して、時間の70%がその列のIDは、結果の間隔の一部になります。 pmfを形成するのは垂直列であることを忘れないでください

その手順を実行した後、次の間隔になりました:

画像の説明を入力してくださいここ

たとえば、描画するCookieのチップ数が1の場合、信頼区間は{B、C、D}になります。数が4の場合、信頼区間{B、C}になります。各列の合計が70%以上になるため、実際にどの列にいるかに関係なく(配達員がどの瓶にドロップしたかに関係なく)、この手順の結果の間隔には正しいものが含まれることに注意してください。少なくとも70%の確率でjar。

間隔を作成する際に実行した手順にはある程度の裁量があることにも注意してください。タイプBの列では、間隔が次のようになっていることを簡単に確認できました。含まれるBは、1,2,3,4ではなく0,1,2,3になります。これにより、タイプB jar(12 + 19 + 24 + 20)のカバレッジが75%になり、の下限を満たします。 70%。

妹のベイジアはこのアプリを考えましたしかし、ゴキブリはクレイジーでした。 「配達員をシステムの一部と見なす必要があります」と彼女は言いました。 「Let」は、jarのIDをそれ自体が確率変数として扱い、配達員がそれらの中から均一に選択することを仮定します。つまり、4つすべてをトラックに乗せて、私たちの家では、彼はランダムに1つを選び、それぞれが均一な確率で選択します。 “

“その仮定で、イベント全体の同時確率を見てみましょう-jarタイプおよび最初のCookieから引き出すチップの数」と彼女は言い、次の表を描きました。

ここに画像の説明を入力してください

テーブル全体が確率質量関数になっていることに注意してください。つまり、テーブル全体の合計が100%になります。

” 「わかりました」と私は言いました。「これはどこに向かっているのですか?」

「あなたは、瓶を与えられた場合のチップ数の条件付き確率を見てきました」とベイジアは言いました。 「それはすべて間違っている!あなたが本当に気にかけているのは、クッキー上のチップの数を考えると、それがどの瓶であるかの条件付き確率です! 70%の間隔には、合計で70%の確率で真のjarになるリストjarを含める必要があります。 「それははるかに単純で直感的ではありませんか?」

「もちろんですが、それをどのように計算するのですか?」尋ねました。

が3つのチップを持っていることを知っているとしましょう。次に、テーブル内の他のすべての行を無視して、その行を確率質量関数として扱うことができます。 「ただし、各行の合計が100になるように、確率を比例的にスケールアップする必要があります。」彼女は次のように行いました。

ここに画像の説明を入力してください

「各行がpmfになり、合計が100%になっていることに注目してください。 「条件付き確率を最初の確率から反転しました。これは、最初のCookieのチップ数を考慮して、男性が特定の瓶から落とした確率です。」

「興味深い、 「私は言った。 「では、各行で最大70%の確率を得るのに十分な数の瓶を丸で囲んでいますか?」

ここに画像の説明を入力

各間隔には、次のような一連のjarファイルが含まれています。事後、合計で真の瓶になる確率は70%になります。

「まあ、ちょっと待ってください」と私は言いました。 「私は」確信していません。2種類の間隔を並べて比較し、カバレッジを比較してみましょう。配達員が各種類の瓶を同じ確率で選択すると仮定すると、信頼性が高まります。」

ここにあります。

信頼区間:

画像の説明を入力ここ

信頼区間:

ここに画像の説明を入力してください

「信頼区間がどれほど狂っているのかわかりますか?」ベイジアは言った。チップがゼロのクッキーを描くとき、「あなたには」賢明な答えさえありません!あなたはそれが空の間隔だと言うだけです。しかしそれは明らかに間違っています-それは4つのタイプの瓶の1つでなければなりません。 間隔が間違っていることがわかったときに、1日の終わりに間隔を指定して、どのように自分と一緒に暮らすことができますか?そして同上3つのチップでCookieをプルすると、間隔は41%の確率でしか正しくありません。これを「70%」の信頼区間と呼ぶのはばかげています。」

「まあ、ねえ」と私は答えました。「配達員がどの瓶を落としたとしても、70%の確率で正しいです。それは「あなたの信頼区間についてあなたが言うことができる以上のものです。瓶がタイプBの場合はどうなりますか?そうすると、あなたの間隔は80%の確率で間違ってしまい、20%の確率でしか正しくなりません!」

「これは大きな問題のようです」と私は続けました。「あなたの間違いは瓶の種類。 100台の「ベイジアン」ロボットを送信して、所有しているjarのタイプを評価し、各ロボットが1つのCookieをサンプリングすると、タイプBの日には、80台のロボットが間違った答えを得ると予想されます。誤った結論を73%以上信じている!これは「特に、ほとんどのロボットに正しい答えに同意してもらいたい場合は面倒です。」

「さらに、配達員が行動するというこの仮定を立てる必要がありました。均一に、各タイプの瓶をランダムに選択します」と私は言いました。それが間違っている場合はどうなりますか?あなたは彼と話をしていません。あなたは彼にインタビューしていません。それでも、事後の確率に関するあなたの発言はすべて、彼の行動に関するこの発言に基づいています。私はそのような仮定をする必要はなく、私の間隔はその基準を満たしています。最悪の場合。」

「私の信頼区間がタイプBの瓶でうまく機能しないのは事実です」とBayesia氏は述べています。 「しかし、どうしたのですか?タイプBの瓶は25%の確率でしか発生しません。それは、タイプA、C、およびDの瓶を十分にカバーしていることでバランスが取れています。そして、私はナンセンスを公開することは決してありません。」

「チップがゼロのクッキーを描いたとき、信頼区間のパフォーマンスが低下するのは事実です」と私は言いました。チップレスCookieは、最悪の場合(D型jar)で最大27%の確率で発生します。 jarファイルがない場合、30%以上の確率で間違った答えが返されるため、この結果に意味をなさないようにする余裕があります。」

「列の合計が重要です」と私は言いました。

「行の合計が重要だ」とベイシア氏は語った。

「私たちは行き詰まっていることがわかる」と私は言った。 「私たちは、私たちが行っている数学的ステートメントではどちらも正しいですが、不確実性を定量化する適切な方法については意見が分かれています。」

「それは本当です」と私の妹は言いました。 「

コメント

  • 良い答え-ちょっとしたポイントですが、” …と言います。パラメータに1つの真の値があると言う代わりに、ベイジアン法は、値が何らかの確率分布から選択されると言います….. “これは正しくありません。ベイジアンは確率分布に適合します。真の未知の固定値に関する不確実性を表すため。これは、データを観察する前にわかっていたことを考えると、どの値がもっともらしいかを示します。実際の確率ステートメントは$ Pr [\ theta_0 \ in(\ theta、\ theta + d \ theta)| I] $、ここで$ \ theta_0 $は真の値であり、$ \ theta $は、情報$ I $に基づいて仮定された値です。
  • … cont ‘ d …しかし、whaを理解した上で、$ p(\ theta)$と書く方がはるかに便利です。これは、バックグラウンドで”を意味します”。明らかに、これは多くの混乱を引き起こす可能性があります。
  • この非常に古い投稿を復活させて申し訳ありませんが、簡単な質問です。頻度主義者がベイズのアプローチを批判しているセクションの投稿で、”真の値がたとえば0.37の場合はどうなりますか?そうである場合、最初から最後まで実行するメソッドは、75%の確率で間違っています。”これらの数値はどのようにして取得しましたか? 0.37は75%間違っていることにどのように対応しますか?これはある種の確率曲線から外れていますか?ありがとう
  • @ BYS2、作者が"What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time"と言ったとき、彼らは自分たちが作った例の番号を示しているだけです。この特定のケースでは、0.37と非常に低い値を持ち、その確率密度のほとんどが他の場所にある事前分布を参照します。また、パラメーターの真の値が0の場合、サンプルの分布のパフォーマンスは非常に低くなると想定しています。37、瓶がたまたまタイプBであったときに、Bayesia ‘の信頼区間が惨めに失敗したのと同様です。
  • 著者は"you will expect 80 of the robots to get the wrong answer, each having >73% belief in its incorrect conclusion!"ですが、72%が信頼区間テーブルの最小信頼度であるため、これは>72%の信念である必要があります。

回答

私の理解は次のとおりです。

背景

データ$ x $があり、$ \ theta $を推定しようとしているとします。 $ \ theta $を条件として$ x $がどのように生成されるかを説明するデータ生成プロセスがあります。言い換えると、$ x $の分布を知っています(たとえば、$ f(x | \ theta)$。

推論の問題

推論の問題は次のとおりです。観測されたデータ$ x $を考えると、$ \ theta $のどの値が妥当ですか?

信頼区間

信頼区間は、上記の問題に対する古典的な答えです。このアプローチでは、 trueがあると想定します。 、$ \ theta $の固定値。この仮定を前提として、データ$ x $を使用して、$ \ theta $の見積もり(たとえば、$ \ hat {\ theta} $)を取得します。推定値との関係で真の値がどこにあるかを評価する必要があります。

このアプローチでは、真の値はランダム変数ではないことに注意してください。 固定されていますが、未知の量。対照的に、推定値は、データ生成プロセスから生成されたデータ$ x $に依存するため、ランダム変数です。したがって、異なる結果が得られることがわかります。調査を繰り返すたびに見積もりを行います。

上記の理解は、見積もりとの関係で真のパラメータがどこにあるかを評価するための次の方法につながります。次のプロパティを使用して、間隔$ I \ equiv [lb(x)、ub(x)] $を定義します。

$ P(\ theta \ in I)= 0.95 $

上記のように構築された間隔は、いわゆる信頼区間です。真の値は不明ですが固定されているため、真の値は間隔内または間隔外のいずれかになります。信頼区間は、取得した区間が実際に真のパラメーター値を持っている可能性についてのステートメントです。したがって、確率ステートメントは、真のパラメータ値の場所ではなく、間隔(つまり、真の値を持つかどうかの間隔)に関するものです。

このパラダイムでは、真の値は確率変数ではないため、真の値が特定の値よりも小さいか大きい確率について話します。

信頼区間

従来のアプローチとは対照的に、ベイジアンアプローチでは、真の値は確率変数であると想定しています。したがって、真のパラメーターベクトル(たとえば$ f(\ theta)$)に事前分布を課すことにより、真のパラメーター値に関する不確実性をキャプチャします。

ベイズの定理を使用して、事後分布を構築します。事前確率と私たちが持っているデータをブレンドすることによるパラメーターベクトルの場合(簡単に事後確率は$ f(\ theta |-)\ propto f(\ theta)f(x | \ theta)$です)。

次に、事後分布を使用して点推定に到達します(たとえば、事後分布の平均を使用します)。ただし、このパラダイムでは、真のパラメーターベクトルは確率変数であるため、点推定にある不確実性の程度も知りたいと思います。したがって、次のように間隔を作成します。

$ P(l(\ theta)\ le {\ theta} \ le ub(\ theta))= 0.95 $

上記は信頼できる間隔です。

概要

信頼区間は、パラメータ値であるため、パラメータに関する確率論的ステートメントとして解釈できます。

対照的に、信頼区間は、取得した区間に関する不確実性(つまり、真の値が含まれているかどうか)をキャプチャします。したがって、これらは真のパラメータ値に関する確率論的ステートメントとして解釈することはできません。

コメント

  • 定義上、95%の信頼区間が真のパラメータをカバーします。あなたが正しく示したように、ケースの95%の値。したがって、間隔が真のパラメータ値をカバーする可能性は95%です。間隔を作成するときに行う仮定(ほとんどの場合、推定値の正規分布)に基づいて、パラメーターがどの境界よりも大きいまたは小さい可能性について何かを言うことができます。 P(theta > ub)またはP(ub < theta)を計算できます。確かに、この声明は境界に関するものですが、あなたはそれを作ることができます。
  • ジョリス、私は同意できません’。はい、パラメータのどの値についても、結果の間隔が真の値をカバーする確率は> 95%になります。これは、’特定の観測を行って間隔を計算した後でも、その間隔が真の値をカバーしているというデータを前提として、95%の条件付き確率があることを意味しません。以下で述べたように、正式には、信頼区間が95%の時間で[0、1]を吐き出し、残りの5%が空集合であることが完全に許容されます。間隔として空のセットを取得した場合、’真の値が95%以内である可能性があります!
  • ジョリス、私はividを使用していました” sample、”

data ” div>だから私たちは同意すると思います。私のポイントは、’は、サンプルを取得した後、間隔が間違っていることを絶対的に確実に証明できる状況にある可能性があるということです。本当の価値。これは、それが有効な95%信頼区間ではないことを意味するものではありません。したがって、’信頼性パラメータ(95%)は、’ 後の特定の間隔の範囲の確率について何も教えてくれないとは言えません。 div> veは実験を行い、間隔を取得しました。事前確率によって通知された事後確率のみがそれを話すことができます。

  • ジェインズの論文の1つで bayes.wustl.edu/etj/articles/ confidence.pdf 彼は信頼区間を作成し、特定のサンプルについて、真の値が”信頼区間”。 ‘ CIが”間違っていることを意味するわけではありません”、それだけです頻度主義的信頼区間は、質問に対する答えではありません”確率95%の統計の真の値を含む間隔は何ですか”。悲しいことに、それが私たちが聞きたい質問です。そのため、CIはその質問に対する答えであるかのように解釈されることがよくあります。 🙁
  • @ svadalli-ベイジアンアプローチは$ \ theta $ がランダムであるという見方をしません。配布されるのは$ \ theta $ではありません($ \ theta $は固定されていますが、不明です)、$ \ theta $に関する知識の状態を条件として、配布されるのは $ \ theta $ に関する不確実性です。実際の確率ステートメント$ f(\ theta)$がキャプチャしているのは$ Pr(\ theta \ text {は間隔}(\ theta、\ theta + d \ theta)| I)= f(\ theta)d \ theta $です。実際、まったく同じ議論が$ X $にも当てはまります。これも修正済みと見なすことができますが、不明です。
  • 回答

    1つの基本的な点に関するSrikantの回答に同意しません。Srikantは次のように述べています。

    「推論の問題:あなたの推論の問題は、観測されたデータxを考えると、どのθの値が妥当ですか?」

    実際、これはベイズ推定の問題です。ベイズ統計では、P(θ| x)、つまり観測データ(サンプル)が与えられた場合のパラメーター値の確率を計算しようとします。CREDIBLEINTERVALは、問題の根底にあるいくつかの仮定が与えられた場合に、θの真の値を含む可能性が95%(またはその他)のθの区間です。

    頻度論的推定の問題は次のとおりです。

    θの仮説値を考えると、観測データxは妥当ですか?

    頻度論的統計では、P(x |θ)、つまり、仮定されたパラメーター値が与えられた場合にデータ(サンプル)を観測する確率を計算しようとします。信頼区間(おそらく誤った名称)は次のように解釈されます。ランダムサンプルxを生成した実験が何度も繰り返された場合、それらのランダムサンプルから構築されたそのような間隔の95%(またはその他)にパラメーターの真の値が含まれます。

    頭がおかしい?これは頻度主義統計の問題であり、ベイジアン統計がそれを主な目的としています。

    Sikrantが指摘しているように、P(θ| x)とP(x |θ)は次のように関連しています。

    P(θ| x)= P(θ)P(x |θ)

    ここで、P(θ)は事前確率、P(x |θ)は次の確率です。その事前確率とP(θ| x)を条件とするデータは事後確率です。事前確率P(θ)は本質的に主観的ですが、それは非常に深い意味での宇宙に関する知識の代償です。

    SikrantとKeithの両方の回答の他の部分は優れています。

    コメント

    • 技術的には正しいですが、注意してください。信頼区間は、ヌル仮説が真であるパラメーター値のセットを提供します。したがって、”は、シータに関する仮説を考えると、観測データx妥当ですか?”は”と言い換えることができます。シータの真の値は、観察された場合の互換性のある仮説になります。 ed data x?”言い換えられた質問は、シータが確率変数であると想定されていることを必ずしも意味しないことに注意してください。言い換えられた質問は、仮説値が信頼区間に含まれるかどうかを調べることにより、null仮説検定を実行するという事実を利用しています。
    • @ svadali-信頼区間はデータの固定値を評価します仮説。したがって、方程式の” fixed “の部分を変更するときに、観察する前に仮説の確率を考慮に入れなかった場合データの場合、矛盾や一貫性のない結果が発生する可能性があります。条件を変更する場合、条件付き確率は”制約されません”(たとえば、条件を変更することにより、条件付き確率を0から1に変更できます) 。事前確率は、この恣意性を考慮に入れています。 Xの条件付けは、Xが発生したことが確実であるために行われます-Xを観察しました!

    回答

    以前に提供された回答は非常に役立ち、詳細です。これが私の0.25ドルです。

    信頼区間(CI)は、確率が比例のようなものであり、コルモグロフの公理系に基づく確率の古典的な定義(「頻度論者の定義」とも呼ばれます)に基づく概念です。 (その他)。

    信頼区間(最高事後密度、HPD)は、Waldとde Finettiの研究に基づいた決定理論にルーツがあると見なすことができます(そして他の人によって多く拡張されました)。

    このスレッドの人々は、ベイジアンと頻度主義のケースで例と仮説の違いを与えるのに素晴らしい仕事をしたので、いくつかの重要な点を強調します。

    1. CIは、観察されたデータだけでなく、観察された実験のすべての可能な繰り返しについて推論を行わなければならないという事実に基づいていますが、HPDは完全に観察されたデータに基づいています(そして私たちの以前の仮定を明らかにします)。

    2. 一般に、CIはコヒーレントではありません(後で説明します)が、HPDはコヒーレントです(決定理論にルーツがあるため)。コヒーレンス(祖母に説明するように)とは、パラメーター値に賭けの問題がある場合、古典的な統計学者(頻度主義者)がCIに賭け、ベイジアンがHPDに賭けた場合、頻度主義者は負けることになります(些細な場合を除く) HPD = CIの場合)。つまり、実験の結果をデータに基づく確率として要約する場合、確率は事後確率(事前確率に基づく)である必要があります。 (大まかに)次のように述べている定理があります(Heath and Sudderth、Annals of Statistics、1978を参照)。データに基づく $ \ theta $ への確率の割り当てはベイジアン方式で取得された場合に限り、確実に敗者になります。

    3. CIは観測データを条件付けないため(「条件原則」CPとも呼ばれます)、フィッシャーはCPの大きな支持者であり、これに従わなかった場合にも多くの逆説的な例を見つけました(CIの場合のように)。これが、彼が推論にp値を使用した理由です。 CI。彼の見解では、p値は観測されたデータに基づいていました(p値については多くのことが言えますが、ここでは焦点を当てていません)。非常に有名な逆説的な例の2つは次のとおりです。(4と5)

    4. Coxの例(Annals ofMath。Stat。、1958): $ X_i \ sim \ mathcal {N}(\ mu、\ $ i \ in \ {1、\ dots、n \} $ のsigma ^ 2)$ (iid)であり、推定したいmate $ \ mu $ $ n $ は固定されておらず、コインを投げることによって選択されます。コイントスの結果がHの場合、2が選択され、それ以外の場合は1000が選択されます。 「常識」推定-サンプル平均は、分散が $ 0.5 \ sigma ^ 2 + 0.0005 \ sigma ^ 2 $ の不偏推定です。 $ n = 1000 $ の場合、サンプルの分散として何を使用しますか?サンプル平均推定量の分散を、推定量の実際の分散ではなく、 $ 0.001 \ sigma ^ 2 $ (条件付き分散)として使用する方が良い(または賢明な)のではないでしょうか。 、これは巨大です!!( $ 0.5 \ sigma ^ 2 + 0.0005 \ sigma ^ 2 $ )これは、分散を $ 0.001 \ sigma ^ 2 $ when $ n = 1000 $ $ n $ スタンドアロンでは、 $ \ mu $ $ \ sigma $ の重要性や情報はありません。 span>(つまり、 $ n $ はそれらの補助です)が、その値を考えると、「データの品質」について多くのことを知っています。これは、CIに直接関係しています。 $ n $ を条件としてはならない分散を含みます。つまり、より大きな分散を使用することになり、したがって保守的すぎます。

    5. ウェルチの例:この例は任意の $ n $ で機能しますが、 $ n = 2 $ $ X_1、X_2 \ sim \ mathcal {U}(\ theta-1 / 2、\ theta + 1/2)$ (iid)、 $ \ theta $ は実数直線に属します。これは、 $を意味します。 X_1- \ theta \ sim \ mathcal {U}(-1 / 2、1 / 2)$ (iid)。 $ \ frac {1} {2}( X_1 + X_2){\ bar x}-\ theta $ (これは統計ではないことに注意してください)には、 $ \ theta $ に依存しない分布があります。 $ c > 0 $ st $ \ text {Prob}を選択できます_ \ theta(-c < = {\ bar x}-\ theta < = c)= 1- \ alpha(\ approx 99 \%)$ $({\ bar x} –c、{\ bar x} + c)$ が99%CIであることを意味します $ \ theta $ 。このCIの解釈は次のとおりです。繰り返しサンプリングすると、異なる $ {\ bar x} $ が得られ、99%(少なくとも)回はtrueが含まれます $ \ theta $ ですが、与えられたデータの場合(部屋の中の象)、CIに真の $ \ theta $ 。ここで、次のデータについて考えてみます。 $ X_1 = 0 $ および $ X_2 = 1 $ 、 $ | X_1 –X_2 | = 1 $ として、間隔 $(X_1、X_2)$ には $ \ theta $ が含まれています(1つの考えられる批判、 $ \ text {確率}(| X_1-X_2 | = 1)= 0 $ ですが、数学的に処理できるため、説明しません)。この例は、コヒーレンスの概念も美しく示しています。あなたが古典的な統計学者であれば、 $ | X_1 –X_2 | $ の値を見ずに99%CIに賭けるでしょう(あなたがあなたに忠実であると仮定して)職業)。ただし、ベイジアンは、 $ | X_1 –X_2 | $ の値が1に近い場合にのみCIに賭けます。 $ | X_1 –X_2 | $ 、間隔は一貫しており、プレーヤーはもはや確実に敗者になることはありません(Heath and Sudderthの定理と同様)。

    6. フィッシャーはそのような問題について推奨しました-CPを使用してください。ウェルチの例では、フィッシャーは $ X_2-X_1 $ の条件を提案しました。ご覧のとおり、 $ X_2-X_1 $ $ \ theta $ の補助ですが、シータ。 $ X_2-X_1 $ が小さい場合、 $ \ theta $ に関する情報は多くありません。データ。 $ X_2-X_1 $ が大きい場合、 $ \ theta $ に関する多くの情報がデータ。フィッシャーは、補助統計の条件付けの戦略を基準推論と呼ばれる一般理論に拡張しました(彼の最大の失敗とも呼ばれます。Zabell、Stat。Sci。1992を参照)が、一般性と柔軟性の欠如。フィッシャーは、(ネイマンスクールの)古典的統計とベイジアンスクールの両方とは異なる方法を見つけようとしていました(したがって、サベージの有名な格言:「フィッシャーは、ベイジアンオムレットを(つまり、CPを使用して)作成したかったのです。ベイジアンの卵を壊す」)。フォークロア(証拠なし)は次のように述べています。フィッシャーは討論の中でネイマンを品質管理の男と呼ぶことで攻撃しました(タイプIとタイプIIのエラーとCI)。 >科学者、ネイマンの方法は観測されたデータを条件付けなかったため、代わりにすべての可能な繰り返しを調べました。

    7. 統計学者も十分性の原則を使用したいと考えています( SP)CPに加えて。しかし、SPとCPは一緒になって、可能性の原則(LP)(Birnbaum、JASA、1962を参照)、つまりCPとSPが与えられていることを意味します。 、サンプル空間を無視し、尤度関数のみを確認する必要があります。したがって、指定されたデータのみを確認する必要があり、サンプル空間全体を確認する必要はありません(サンプル空間全体を確認することは、繰り返しサンプリングするのと同じ方法です)。これは、頻度主義的観点からデータに関する情報を測定する観測フィッシャー情報量(Efron and Hinkley、AS、1978を参照)のような概念につながりました。データ内の情報量は、CIではなくベイジアンの概念です(したがって、HPDに関連しています)。

    8. キーファーは1970年代後半に、CIに関する基本的な作業を行いましたが、彼の拡張機能は普及していません。参考になる良い情報源はBergerです(「CouldFisher、Neyman、Jeffreysは仮説の検定について合意しています」、Stat Sci、2003年)。


    要約:

    (Srikantなどが指摘しているように)
    CIは確率として解釈できず、 「観測されたデータが与えられたとしても、未知のパラメータについては何も言わないでください。 CIは、繰り返される実験に関するステートメントです。

    HPDは、未知のパラメーターの事後分布に基づく確率的間隔であり、与えられたデータに基づく確率ベースの解釈を持ちます。

    頻度主義的プロパティ(繰り返しサンプリング)プロパティは望ましいプロパティであり、HPD(適切な事前確率を持つ)とCIの両方にそれらがあります。 HPDは、未知のパラメーターに関する質問に回答する際にも、指定されたデータを条件とします

    (客観的ではなく主観的)ベイジアンは、パラメーターの単一のTRUE値があるという古典的な統計学者に同意します。ただし、どちらもこの真のパラメータについて推論する方法が異なります。

    ベイジアンHPDは、データを条件付ける良い方法を提供しますが、頻度論者に同意できない場合CIのプロパティはあまり役に立ちません(アナロジー:優れた頻度主義プロパティなしでHPDを使用する人(事前確率あり)は、ハンマーだけを気にし、スクリュードライバーを忘れる大工のように運命づけられます)

    ついに、このスレッドの人々(Joris博士によるコメント:「…関係する仮定は、拡散した事前確率、つまり、真のパラメーターに関する知識の完全な欠如を意味します。」)について話しているのを見ました。拡散事前分布を使用するのと同等の真のパラメーターに関する知識の欠如。このステートメントに同意できるかどうかはわかりません(キース博士は私に同意します)。たとえば、基本的な線形モデルの場合、一様分布(拡散と呼ばれることもあります)を使用していくつかの分布を取得できますが、それは、一様分布が低情報優先と見なすことができるという意味ではありません。一般に、NON-INFORMATIVE(Objective)priorは、パラメータに関する情報が少ないことを意味するわけではありません。

    注:これらのポイントの多くは基づいています。著名なベイジアンの1人による講義について。私はまだ学生であり、何らかの形で彼を誤解している可能性があります。事前に謝罪を受け入れてください。

    コメント

    • “常連客は負けることになります”最も投票された回答を見ると、私は’ dは、これがユーティリティ関数に依存すると想定します(たとえば、後悔の最適化が行われている場合ではありません)。直感的には、前の関数を決定する機能にも依存する可能性があります…
    • “頻繁に参加する人は負けることになります” … *適切な事前確率があることを条件とします*(一般的にはそれほど簡単ではありません)完璧な例:ギャンブル中毒者は、今回は運が変わると99%確信しています。彼らの決定分析は、長期的にはうまくいかない傾向があります。
    • ‘信頼区間を CIとして短縮する必要があるとは思いません信頼区間と信頼区間の違いについての回答。

    回答

    常に参加するのが楽しい少し哲学で。キースの回答はとても気に入っていますが、彼は「MrforgetfulBayesia」の立場を取っていると言えます。タイプBとタイプCの場合の悪いカバレッジは、彼がすべてで同じ確率分布を適用した場合にのみ発生します。タイプAとタイプDのjarは、いわば「明確な予測」を行うため(0-1と2-の場合)、これは非常に明確にわかります。タイプBとCのジャーは基本的にチップの均一な分布を示します。したがって、いくつかの固定された「真のジャー」を使用して実験を繰り返すと(または別のビスケットをサンプリングした場合)、チップの均一な分布が証拠を提供します。タイプBまたはCのjarの場合。

    そして「実用的な」観点から、タイプBとCは、それらを区別できるようにするために膨大なサンプルを必要とします。2つの分布間のKLの相違は$ KL( B || C)\ approx 0.006 \ approx KL(C || B)$。これは、分散が$ 1 $で、差が2つの正規分布に相当する発散です。 $ \ sqrt {2 \ times 0.006} = 0.11 $の平均。したがって、1つのサンプルに基づいて区別できるとは期待できません(通常の場合、5%の有意水準でこの差を検出するには約320のサンプルサイズが必要です)。したがって、タイプBを正当に折りたたむことができます。十分なサンプルが得られるまで、Cを一緒に入力します。

    これらの信頼区間はどうなりますか?実際には「BまたはC」を100%カバーしています!頻度論的区間はどうですか? ?すべての間隔にBとCの両方が含まれているか、どちらも含まれていないため、カバレッジは変更されていません。そのため、キースの応答では依然として批判の対象になっています。ここで実用的にしましょう。ある関数に関して何かを最適化した場合、別の関数でうまく機能することは期待できません。ただし、頻度主義とベイズの両方の区間は、平均して望ましい信頼性/信頼水準を達成します。$(0+ 99 + 99 + 59 + 99)/ 5 = 71.2 $-したがって、頻度主義者は適切な平均信頼度を持っています。また、$(98 + 60 + 66 + 97)/ 4 = 80.3 $-ベイジアンは適切な平均カバレッジを持っています。

    強調したいもう1つのポイントは、ベイジアンが確率分布を割り当てることによって「パラメーターがランダムである」と言っていないことです。ベイジアンにとって(少なくとも私にとっては)確率分布は説明です。 「ランダム性」の概念はベイズ理論には実際には存在せず、「知っている」と「知らない」の概念だけが存在します。「既知」は条件に入り、「未知」は関心がある場合は確率を計算し、迷惑な場合は無視します。したがって、信頼区間は次のようになります。固定パラメータについて知られていること、それについて知られていないことの平均。したがって、クッキージャーを梱包した人の立場を取り、それがタイプAであることがわかった場合、サンプルに関係なく、サンプルの数に関係なく、信頼区間は[A]になります。そして、それらは100%正確です!

    信頼区間は、さまざまな可能なサンプルに存在する「ランダム性」または変動に基づいています。そのため、彼らが考慮に入れる唯一のバリエーションは、サンプルのバリエーションです。したがって、クッキージャーを梱包した人の信頼区間は変わらず、タイプAであることがわかります。したがって、タイプAのジャーから1チップでビスケットを引いた場合、常連客は70%の信頼度でタイプが彼らは瓶がタイプAであることを知っていても、Aではありません! (彼らが彼らのイデオロギーを維持し、彼らの常識を無視した場合)。これが当てはまるかどうかを確認するために、この状況ではサンプリング分布が変更されていないことに注意してください。パラメータに関する「非データ」ベースの情報を使用して、別の人の視点をとっただけです。

    信頼度間隔は、データが変更されたとき、またはモデル/サンプリング分布が変更されたときにのみ変更されます。他の関連情報を考慮に入れると、信頼区間が変わる可能性があります。

    この狂った行動は、信頼区間の支持者が実際に行うことではないことに注意してください。しかし、それは特定の場合の方法の根底にある哲学の弱点を示しています。信頼区間は、データセットに含まれる情報以外のパラメータについてあまり知らない場合に最適に機能します。さらに、信頼区間は、信頼区間で可能な事前情報がない限り、信頼区間を大幅に改善することはできません。 「考慮しない、または十分で補助的な統計を見つけるのは難しい。

    コメント

    • できる’キース’のjarの例の説明を理解したと言うと、簡単な質問です。実験を$ m $回繰り返し、$ m $の異なるサンプルを収集したので、今は’ $ m $の異なるCI(それぞれ95%の信頼水準)を計算しましたが、CIとは何ですか?$ m $ CIの95%が真の値をカバーする必要があるということですか?
    • @ loganecolss-これは確かに真実ですが、$ m \ to \ infty $としての制限内でのみです。これは、標準の”確率” = “長期実行頻度”基礎となるCIの解釈。
    • はい、制限内です。次に、1つまたは2、3のサンプルの場合、CIは’何の意味もありませんよね?次に、’大量のサンプルがない場合、CIを計算するポイントは’ですか?
    • @ loganecolss-その’が私が’ maベイジアンである理由です。
    • @ nazka-ある種。データの量に関係なく、ベイジアンアプローチを使用するのが常に最善だと思います。これが頻度主義的手順で十分に近似できる場合は、それを使用します。ベイジアンはslowの同義語ではありません。

    回答

    私が理解しているように:信頼区間はステートメントです私たちが実際に観察したデータの特定のサンプルを考えると、もっともらしいままである関心のある統計の値の範囲の。信頼区間は、同じ基礎となる母集団からのデータの異なるサンプルを使用して、実験が何度も繰り返されたときに、真の値が信頼区間にある頻度のステートメントです。

    通常、私たちが答えたい質問は「統計のどの値が観測データと一致しているか」であり、信頼区間はその質問に直接答えます-統計の真の値は確率で95%の信頼区間にあります95%。信頼区間は、この質問に対する直接の答えを提供しません。統計の真の値が95%の信頼区間内にある確率が95%であると主張するのは正しくありません(信頼区間と一致する場合を除く)。ただし、これは頻度論的信頼区間の非常に一般的な誤解です。これは、質問に対する直接の答えとなる解釈であるためです。

    別の質問で説明するJayneの論文は、次の良い例を示しています。これ(例#5)は、完全に正しい信頼区間が構築された場合、それが基づいているデータの特定のサンプルは、統計の真の値が95%の信頼区間にある可能性を排除します!これは単なる信頼区間が、私たちが観察した特定のサンプルに基づいた統計のもっともらしい値のステートメントとして誤って解釈された場合の問題。

    結局のところ、それは「コース」であり、どの間隔が最適かは、回答する質問によって異なります。その質問に直接回答する方法を選択するだけです。

    [設計された]反復可能な実験を分析する場合は、信頼区間の方が便利だと思います(単なる仮定です信頼区間の基礎となる)、および観測データを分析するときの信頼区間の方が優れていますが、それは単なる意見です(私は自分の仕事で両方の種類の間隔を使用していますが、どちらの専門家としても自分自身を説明しません)。

    コメント

    • 繰り返し実験の信頼区間の問題は、それらが機能するためには、繰り返し可能な実験の条件が同じである必要があることです(および誰がそれを信じるでしょうか?)一方、ベイジアン間隔(適切に使用されている場合)は、観測されたデータを条件とし、したがって(データを介して)実世界で発生する変化を考慮に入れます。ベイズ統計の調整ルールがアウトパフォームを非常に難しくしていると思います(不可能だと思います:同等性しか達成できません)、そしてこれを達成する自動機械がそれを見せていますとても滑らかです。

    回答

    信頼区間と信頼できるセットに関する多くの解釈が間違っていることがわかりました。たとえば、信頼区間はこの形式$ P(\ theta \ in CI)$で表すことはできません。頻度主義者とベイジアンの推定における「分布」をよく見ると、ベイジアンがパラメーターの(事後)分布に取り組んでいるのに対し、頻度主義者はデータのサンプリング分布に取り組んでいることがわかります。これらは、まったく異なるサンプル空間とシグマ代数で定義されています。

    つまり、「実験を何度も繰り返すと、95%CIの約95%が真のパラメーターをカバーする」と言えます。ベイジアンでは、「統計の真の値は、95%の確率で95%の信頼区間にある」と言うことができますが、この95%の確率(ベイジアン)自体は推定値にすぎません。 (これは、サンプリング分布ではなく、この特定のデータが与えられた条件分布に基づいていることを忘れないでください)。この推定量には、ランダムサンプルによるランダムエラーが含まれている必要があります。

    ベイジアンは、タイプIエラーの問題を回避しようとします。ベイジアンは常に、ベイジアンのタイプIエラーについて話すことは意味がないと言います。これは完全に真実ではありません。統計学者は常に、「あなたのデータはあなたが決定を下すことを示唆しているが、人口はそうではないことを示唆している」という可能性またはエラーを測定したいと思っています。これはベイジアンが答えることができないものです(詳細はここでは省略されています)。残念ながら、これは統計学者が答えるべき最も重要なことかもしれません。統計学者は単に決定を提案するだけではありません。統計学者は、決定がどれだけうまくいかない可能性があるかについても対処できるはずです。

    概念を説明するために、次の表と用語を考案する必要があります。これが信頼区間と信頼できるセットの違いを説明するのに役立つことを願っています。

    事後分布は$ P(\ theta_0 | Data_n)$であり、$ \ theta_0 $は前の$ Pから定義されていることに注意してください。 (\ theta_0)$。頻度主義では、サンプリング分布は$ P(Data_n; \ theta)$です。 $ \ hat {\ theta} $のサンプリング分布は$ P(\ hat {\ theta} _n; \ theta)$です。下付き文字$ n $はサンプルサイズです。 $ P(Data_n | \ theta)$という表記を使用して、頻度主義者にサンプリング分布を提示しないでください。 $ P(Data_n; \ theta)$と$ P(\ hat {\ theta} _n; \ theta)$でランダムデータについて話すことはできますが、$ P(\ theta_0 | Data_n)$でランダムデータについて話すことはできません。

    信頼区間と信頼できるセット

    「???????」ベイジアンでタイプIエラー(または同様のもの)を評価できない理由を説明します。

    信頼できるセットを使用して、状況によっては信頼区間を概算できることにも注意してください。ただし、これは数学的な近似にすぎません。解釈は頻度主義者と一緒に行くべきです。この場合のベイジアン解釈は機能しなくなります。


    Thylacoleo の$ P(x | \ theta)$の表記は頻度主義ではありません。これは、依然としてベイジアンです。これは表記法は、頻度主義者について話すときに測度論に根本的な問題を引き起こします。

    Dikran Marsupial の結論に同意します。 FDAの査読者、あなたは常にあなたが薬の申請を承認する可能性を知りたいのですが、薬は実際には効果的ではありません。これはベイジアンが少なくとも古典的/典型的なベイジアンでは提供できない答えです。

    回答

    一般的で一貫した信頼性と信頼できる地域。 http://dx.doi.org/10.6084/m9.figshare.1528163 http://dx.doi.org/10.6084/m9.figshare.1528187

    のコードで信頼できる間隔と信頼性の説明を提供します与えられた尤度関数といくつかの観測データの両方を計算するための一般的なRコードと一緒にセット選択の間隔。さらにそれは提案します互いに一貫性のある最適なサイズの信頼区間と信頼区間を提供する検定統計量。

    要するに、数式を回避します。ベイジアンの信頼区間は、与えられたパラメータの確率に基づいています。 data 。確率の高いパラメータを信頼できるセット/間隔に収集します。 95%の信頼区間には、データが与えられた場合に0.95の確率を持つパラメーターが含まれています。

    頻繁に使用する信頼区間は、いくつかのパラメータが与えられた場合のデータの確率。各(場合によっては無限に多い)パラメーターについて、最初に、パラメーターが与えられたときに観察される可能性が高いデータのセットを生成します。次に、選択した高確率データに観測データが含まれているかどうか、各パラメーターをチェックします。高確率データに観測データが含まれている場合、対応するパラメーターが信頼区間に追加されます。したがって、信頼区間は、パラメーターがデータを生成した可能性を排除できないパラメーターの集合です。これにより、同様の問題に繰り返し適用された場合、95%の信頼区間に95%のケースで真のパラメーター値が含まれるというルールが与えられます。

    95%の信頼区間と95%の信頼区間負の二項分布の例 負の二項分布の95%信頼区間と95%信頼区間

    コメント

    • 信頼区間の説明が正しくありません。 ” 95%”は、母集団からのサンプルがパラメーターの真の値を含む区間を生成する確率に由来します。
    • @ jlimahaverford-説明はあなたと同じように正しいです。説明内容へのリンクを作成するために、”を追加しました。これにより、同様の問題に繰り返し適用された場合、95%の信頼区間に95の真のパラメーター値が含まれるというルールが与えられます。ケースの割合。”
    • 信頼区間について話していた信頼区間の説明については話していませんでした。 ‘信頼区間の段落の途中で、信頼できることについて再び話し始めていることに気づきました。これは間違いだと思います。重要なアイデアはこれです”これがパラメーターの真の値である場合、これほど極端なサンプルを描画する確率はどれくらいですか。答えが5%より大きい場合、信頼区間内に’あります。”
    • @ jlimahaverford-同意する修正しました-ありがとうございます。
    • うーん、修正されていません。

    回答

    これはコメントですが長すぎます。次の論文で:確率論の時代の夜明け(David Mumford) Mumfordには次の興味深いコメントがあります:

    これらの本当にエキサイティングな用途はすべて統計で行われていましたが、RA卿が率いる統計学者自身の大多数フィッシャーは、統計は完全に再現可能な状況以外では使用できず、経験的データのみを使用することはできないと主張し、手を後ろで縛っていました。これは、信じていたベイズの学校と戦った、いわゆる「頻度主義」学校です。現実の状況は常に文脈変数に埋もれており、繰り返すことができないため、このアプローチは、統計的推論が実際の思考と関係がある可能性があることを否定します。幸いなことに、ベイジアン学校は完全に死んだわけではなく、DeFinetti、E.T。 ジェインズ、他の人を乾燥させます。

    コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です