応答変数が「Xが存在するサイトの割合」である、存在/不在データのデータセットに取り組んでいます。平均比率とともに標準偏差を提供するように依頼されました。ただし、二項データセットの標準偏差は比率自体の多項式関数であり、基になるデータの変動性に関する追加情報を提供しないように思われます。たとえば、データからの比率が0.3の場合、その比率が10、100、または100,000サイトの存在/不在データから導出されたかどうかは関係ありません。標準偏差は、同じである必要があります。
サンプルデータセットを作成し、平均比率と標準偏差をグラフ化します。Rの2乗が1.00の6次多項式関数でモデル化できます。
それで、誰かが私の疑いを確認できますか?標準偏差は二項データセットの比率の固有のプロパティであり、したがって、その比率が由来するデータセットに関する追加情報は得られませんか?
コメント
- 必要がありますサイズ$ n $のデータセットの比率$ p $の場合、合計のSDは$ \ sqrt {np(1-p)} $であるため、SDを2次関数の平方根としてさらに適切にモデル化できます。 。
- @whuber:Binomial変数の場合(つまり、成功の count の場合)、標準偏差は$ \ sqrt {np(1-p)} $だと思います。 、ただし、成功の割合については、標準偏差は$ \ sqrt {\ frac {p(1-p)} {n}} $です。この質問に対する私の答えを参照してください。
- @fcoppens正解です。そのため、私は注意を払いました。これを合計のSDとして説明してください。
- @whuber:わかりました:-)、私の答えを見てみましたか?
- 原稿の査読者がこれを求めた場合、そしておそらくレビュアーは、標準誤差のように推定された比率の精度の測定を意味しました。 ' "すべての見積もりに対して常に精度の尺度を提供する必要があるという法律はありませんか?"レビュー担当者が本当に標準偏差を意味している場合は、標準エラーの方が優れている理由に関する外交的回答が機能する可能性があります。
回答
サイズが$ N $で、成功確率が$ p $の二項確率変数$ X $がある場合、つまり$ X \ sim Bin(N; p)$の場合、平均Xのは$ Np $であり、その分散は$ Np(1-p)$であるため、あなたが言うように、分散は$ p $の2次多項式です。ただし、分散は$ N $にも依存することに注意してください!後者は$ p $を推定するために重要です:
100で30の成功を観察した場合、成功の割合は30/100です。これは、成功の数を二項式のサイズで割ったもの、つまり$ \ frac {X} {N} $です。
ただし、$ X $の平均が$ Np $の場合、$ N $は$ N $であるため、$ \ frac {X} {N} $の平均は$ X $の平均を$ N $で割ったものに等しくなります。定数。言い換えると、$ \ frac {X} {N} $は$ \ frac {Np} {N} = p $を意味します。これは、観察された成功の割合が確率$ p $の不偏推定量であることを意味します。
推定量$ \ frac {X} {N} $の分散を計算するには、$ X $の分散を$ N ^ 2 $で除算する必要があります(aの分散を(変数をaで除算)定数)は(変数の分散)を定数の square で割ったものであるため、推定量の分散は次のようになります。 $ \ frac {Np(1-p)} {N ^ 2} = \ frac {p(1-p)} {N} $。推定量の標準偏差は分散の平方根であるため、$ \ sqrt {\ frac {p(1-p)} {N}} $になります。
つまり、コインを100回投げて、49の頭を観察した場合、$ \ frac {49} {100} $は、そのコインで頭を投げる確率と標準偏差の推定量になります。この見積もりの内訳は$ \ sqrt {\ frac {0.49 \ times(1-0.49)} {100}} $です。
コインを1000回投げて、490の頭を観察した場合、確率を見積もります。再び$ 0.49 $で頭を投げ、$ \ sqrt {\ frac {0.49 \ times(1-0.49)} {1000}} $で標準偏差を計算します。
明らかに、2番目のケースでは標準偏差が小さいため、トスの数を増やすと推定量がより正確になります。
二項ランダム変数の場合、分散はpの二項多項式であると結論付けることができますが、Nにも依存し、標準と思います。分散には、成功確率に追加する情報が含まれています。
実際、二項分布には2つのパラメーターがあり、常に少なくとも2つのモーメントが必要です(この場合平均(= 1次モーメント)と標準偏差(2次モーメントの平方根)の場合)、それを完全に識別します。
P.S。 ポアソン二項分布の推定の精度を推定するに対する私の回答には、ポアソン二項分布についても、もう少し一般的な展開があります。
回答
ベルヌーイ分布のファミリーは、通常$ p $と呼ばれる1つの数値によって完全にパラメーター化されます。したがって、ベルヌーイ分布の母集団統計は、パラメータ$ p $の関数である必要があります 。これは、これらの統計が記述的に役に立たないという意味ではありません!
たとえば、ボックスの長さ、幅、高さを指定することでボックスを完全に説明できますが、ボリュームは依然として有用な統計です!
コメント
- 待って、これは正しいですか? 'ベルヌーイ分布を意味しませんか?変更する必要があると思いますが、賛成票がいくつかあります…
- そうです、'ベルヌーイと二項式は非常に密接に関連しています。編集しました。
回答
ポイントがあると思うかもしれません 二項パラメーター$ p $の真の値をすでに知っていて、実際に二項実験(定数$ p $での独立したベルヌーイ試行)を扱っていることを知っています。 $ N $の場合、二項実験の成功数の分散は$ N p(1-p)$であり、(単純に)$ N $で割って成功の割合の分散を取得すると、値が得られます。 $ N $から独立しています。しかし、これには2つの問題があります。まず、$ p $の値を知っていれば、この分析を行う必要はありません。次に、@ f-coppensが指摘しているように、観察された成功率の分散を決定するこの素朴なアプローチは正しくありません。
$ N $ケースのサンプルに基づく$ p $の推定値です。$ p $の推定値の信頼区間は、$ N $の値に依存し、平方根でほぼ改善されます。信頼区間の公式については、二項分布のWikipediaページを参照してください。これはすべてのサンプルが単一のパラメーター$ p $でモデル化されているかどうかさえわかりません。
コメント
- 変数を定数Nで除算する場合は、分散を$ N ^ 2 $で除算する必要があります。この質問に対する私の回答を参照してください。
- @ f-coppens修正され、それに応じて回答を編集しました。ありがとう。