次の特性を持つデータセットがあり、頭を包み込むことができないようです。 「3つのst.dev.sにはデータの99.7%が含まれています」と私は自分に言い聞かせていますが、それは不正確に表現されているようです。
Observations: 2246 Mean: 39 St.dev.: 3 Min: 34 Max: 46 Mean - 3*sd: 30 Mean + 3*sd: 48
これは私に教えてくれますデータの99.7%は30と48の範囲内にありますが、データの100%は34と46の範囲内にあり、それは意味がありません。それは私のサンプルが総人口を表していないという意味ですか?つまり、明らかにそうではありませんが、34歳未満と46歳以上の人間が存在することを知らないと仮定しましょう。ちなみに、これは変数age
Stataサンプルデータセットnlsw88.dta
からのdiv>。
この質問を見ました。しかし、それは私の脳の結び目を解くのにも役立ちません。質問する場所。
編集:これらは多くの質問であることに気づきました。回答が必要なヘッダーの質問を検討してください。残りは、ほとんど私の混乱した思考プロセスの展開です。
コメント
- 最小値と最大値は、人口の最小値と最大値です。あなたは観察しました。標準偏差は、サンプル母集団から計算されます。観測されたサンプルと同じ特性を持ち、正規分布である無限に大きな母集団を想定すると、99.7%の人が30〜48歳になります。当然のことながら、最初のサンプルは、より少ない人を観測するにはもっと大きくなければなりませんでした。 34または46より大きい。
回答
” 3つのst.dev.sには、データの99.7%が含まれています。」
このようなステートメントにいくつかの警告を追加する必要があります。
99.7%のことは、正規分布に関する事実です。母集団の値の99.7%は、母集団の平均の3つの母標準偏差内にあります。
からの大きなサンプル*正規分布の場合、通常はほぼ同じです。データの約99.7%は、サンプル平均の3サンプル標準偏差内にあります(正規分布からサンプリングする場合、サンプルは次のようになります)。それがほぼ真実であるのに十分な大きさです。そのサイズのサンプルで$ 0.9973 \ pm 0.0010 $を取得する可能性は約73%のようです。
*ランダムサンプリングを想定
ただし、正規分布のサンプルはありません。
分布の形状に制限を設けない場合、平均の3標準偏差内の実際の比率が高くなるか、
$ \ qquad \ qquad ^ \ text {平均の2標準偏差内に分布の100%がある分布の例} $
3スタン内の分布の割合平均のダード偏差は88.9%まで低くなる可能性があります。 99.7%を取得するには、18を超える標準偏差が必要になる場合があります。一方、1つの標準偏差未満のかなりの範囲内で99.7%を超えることができます。したがって、99.7%の経験則は、分布の形を少し固定しない限り、必ずしもあまり役に立ちません。
期待を少し緩和すると(非常に「大まかに」99.7%になる)、このルールは、すべての状況で常に機能するとは限らないことを念頭に置いている限り、正規性を必要とせずに役立つ場合があります。
コメント
- あなたの88.9%は en.wikipedia.org/wikiから来ていると思います/ Kolmogorov%27s_inequality 。私は確率クラスがかなり得意でしたが、それは何年も前のことです。
- @emoryそれは'チェビシェフ'の不等式:)
- @Antありがとうございます。そうですね。 en.wikipedia.org/wiki/Chebyshev%27s_inequality
- はい、' sチェビシェフ'の不平等。
回答
簡単な回答サンプルが正規分布に正確に従わなかったため、基本的な仮定、特に正規分布の母集団を操作するために設計されたツールを適用できるという仮定を再検討する必要があるかもしれないことを示唆しています。
悟りのためにあなたの質問を逆に向けてください。サンプルが正規分布している場合、サンプルサイズが約2000の場合、平均して30〜48の範囲外の6つのデータポイントが生成されると予想されます。あなたはそうではありません。これは、「より広い母集団が正規分布に従っていると仮定して行う予測に対して、この正規からの偏差の重要性は何ですか?”
したがって、この小さな異常のより広い意味は、サンプルが正規分布とそれほど変わらない場合でも、それがより大きな正規分布の母集団を表すと仮定して行われた予測には、本質的に欠陥があり、ある程度の資格またはさらなる調査が必要です。ただし、この正規分布からの逸脱の可能性、および結果の予測の暗黙のエラーマージンと信頼性を推定することは、幸いにもここにある他の多くの回答で調査されていますが、私の能力レベルをはるかに超えています。
しかし、結果を完全に精査し、結果が本当に意味するものであり、それらが元の仮説を証明するかどうかを疑問視する良い習慣があることは明らかです。KurtosisやSkewなど、データで明らかになったさらなる異常を探して、どのような手がかりを確認してください彼らは他の分布をあなたの人口をよりよく表すものとして明らかにするか、おそらく考えます。
コメント
- それ、または純粋なランダム性から、そこに範囲内にデータポイントがありませんでした。
回答
「3つのst.dev.s($ 3 \ sqrt {\ sigma ^ 2} $)には、データの99.7%が含まれます」とは、ガウス分布を指します。一般的な分布の場合、チェビシェフの不等式は、平均の$ k $を伴う確率質量の量に下限を設定します。しかし、上限はありますか?
$ p $ =のベルヌーイ分布の場合.5、$ \ sigma $は.5です。平均$ \ mu $も.5です。これは、分布の100%が$ 1 \ sigma $または$ \ mu $内にあることを意味します。標準偏差の数が少ない場合はどうでしょうか。 ?
注:簡単にするために、以下は$ \ mu = 0 $の分布に関する議論です。任意の$ \ mu $の分布への拡張はかなり簡単です。
与えられた正の$ \ varepsilon $と$ M $の場合、$ \ varepsilon / 2 $確率質量$ \ leftarrow M $と$ \ varepsilon / 2 $確率質量$ \ gt M $を持つような分布があります。つまり、
$ p(\ lvert {x} \ rvert \ gt M)= \ varepsilon $
$ M \ to \ infty $のように、他のすべてが等しい場合、$ \ sigma \ to \ infty $。ただし、正の固定$ N $の場合、$ M $が$ N $を超えると、ゼロから$ N $以内の確率質量は常に$ 1- \ varepsilon $になります。 $ M $に関係なく。したがって、ゼロからの相対距離(つまり、値が$ = \ frac {\ lvert {x} \ rvert} {\ sigma} $である標準偏差の数)を見ると、$ M \ to \ infty $の場合、$ n \ to \ infty $があります。ここで、$ n $は、「確率の$ 1- \ varepsilon $が$ \ mu $の$ n \ sigma $内にある」という最大の整数です。
これは、正の数$ \ varepsilon $と$ n $の場合、ゼロから$ n \ sigma $を超える確率が$ \ varepsilon $未満になるような分布があることを示しています。したがって、たとえば、99.999%がゼロから.000001 $ \ sigma $未満になる確率が必要な場合は、それを満たす分布があります。