サンプルサイズが大きくなるにつれて(たとえば、80%のエッジを持つ取引戦略)、なぜ標準が結果の偏差は小さくなりますか?標準偏差が小さくなり、結果が真の平均に近づく理由を誰かが説明できますか…おそらく、単純で直感的な素人の数学的な例を提供してください。
コメント
- 中心極限定理にはどのような直感的な説明がありますか?
- "結果の標準偏差"はあいまいです(どのような結果ですか??)-そしてそのため、タイトルの非常に一般的な記述は厳密に真実ではありません(明らかな反例が存在します。'は時々真実です)。特定の例を指定する方がよい場合があります(サンプル平均のサンプリング分布など、サンプルサイズが大きくなると標準偏差が減少するという特性があります)。
- 標準偏差は'サンプルサイズが大きくなると、必ずしも減少するわけではありません。ただし、平均の標準誤差は、'が'参照しているものである可能性があります。その場合、どこでより確実になります。平均は、サンプルサイズが増加するときです。
- はい、代わりに標準誤差を意味したに違いありません。平均の標本誤差が減少するのはなぜですか?理由を視覚的に示すために、いくつかの単純で非抽象的な数学を提供していただけますか。 'より確実な'が得られるのはなぜですか。ここで、平均はサンプルサイズが大きくなるにつれて変化します(私の場合、結果は実際には80%の勝率)これはどのように発生しますか?
回答
サンプルサイズが大きくなると(たとえば、エッジが80%の取引戦略)、結果の標準偏差が小さくなるのはなぜですか?
ここでの重要な概念は「結果」です。これらの結果は何ですか? 結果は、平均$ \ mu $などの母集団パラメーターの推定量の分散です。
たとえば、値のサンプル分散$ s ^ 2_j $を測定している場合サンプル$ j $の$ x_ {i_j} $は、サンプルサイズが大きくても小さくなりません$ n_j $:$$ s ^ 2_j = \ frac 1 {n_j-1} \ sum_ {i_j}(x_ { i_j}-\ bar x_j)^ 2 $$ここで、$ \ bar x_j = \ frac 1 n_j \ sum_ {i_j} x_ {i_j} $はサンプル平均です。
ただし、分散の推定量サンプルの$ s ^ 2_ \ mu $は、$ \ bar x_j $がサンプルサイズとともに減少することを意味します。$$ \ frac 1 n_js ^ 2_j $$
素人の説明は次のようになります。全体の人口サイズが$ n $であると仮定します。すべての値$ x_ {j = 1 \ dots n} $を見ると、サンプルの平均は真の平均と同じでした:$ \ bar x_j = \ mu $。言い換えると、不確実性はゼロになり、推定量の分散もゼロになります。$ s ^ 2_j = 0 $
ただし、サイズ$ n_j $のサンプルのみを見ている場合。サンプル平均推定量$ \ bar x_j $を不確実性$ s ^ 2_j > 0 $で計算します。したがって、サンプルサイズ$ n_j $と$ n $の間のどこかで不確実性(分散サンプルの)は、$ \ bar x_j $がゼロ以外からゼロに減少したことを意味します。これが私が思いつく最も簡単な説明です。
回答
おそらく、それについて考える最も簡単な方法は、母集団とサンプルの違いに関するものです。変数の平均がサンプルで何であるかを尋ねた場合、見積もりを教えてくれませんか?計算して教えてください。定義上、すべてが揃っているからです。サンプルを構成し、したがって対象の統計を直接観察できるデータ。相関係数はこの意味で違いはありません。サンプルのXとYの相関関係を尋ねると 、I明らかに、それがサンプルの外側にあり、それが抽出されたより大きな集団(実際のまたは形而上学的)にあるかどうかは気にしないでください。その後、数値を計算して教えてください。確率理論は含まれていません。
さて、サンプルの外で、つまり、観測されていない集団、または観測不可能で、ある意味で一定の現実の因果的ダイナミクスのいずれかで、これら2つの変数間の相関に注意を払うとどうなりますか?(後者として考えている場合)その場合、母集団は「超母集団」になります。たとえば、 https://www.jstor.org/stable/2529429 。)次に、もちろん、有意差検定を実行します。それ以外の場合は、サンプルでわかっていることを使用して、母集団の標準偏差を含め、母集団で私たちが知らないことを推定します。あなたの質問。
しかし、最初に、もう一方の極端な例から考えてみましょう。ここでは、非常に大きいサンプルを収集すると、それが単に母集団になります。リサーチクエスチョンが国の実際の人口全体に関するものである場合、またはおそらくそれが一般的な科学理論であり、無限の「サンプル」がある場合は、国勢調査データを想像してください。ここでも、世界がどのように機能するかを知りたい場合は、私の全能性と、単に推定するのではなく、単に関心のある統計を計算します。その後、ブレインファートがあり、全能ではなくなったが、まだそれに近いため、1つの観測値が欠落していて、サンプルが1つの観測値であり、母集団全体をキャプチャできない場合はどうなりますか?ここで、さまざまな確率で取ることができる値の範囲で、もう一度見積もりを行う必要があります-それを正確に特定することはできません-しかし、私が見積もっているのは、実際には、単一の数値です-数値上のポイント範囲ではなく線-そして私はまだたくさんのデータを持っているので、95%の確信を持って、真の関心のある統計は非常に小さな範囲内のどこかにあると言うことができます。それはもちろん、その値が何であるかに依存します最後の観測はたまたまですが、それは1つの観測にすぎないので、関心のある統計を大幅に変更するには、異常に異常である必要があります。もちろん、これはありそうになく、狭い信頼区間に反映されます。
このコインの反対側も同じ話をしています。私が持っているデータの山は、偶然にも、私が計算した場合とは非常に異なるサンプル統計を計算するように導く可能性があります。私が見逃している観察結果でそのデータを補強することはできますが、純粋に偶然にそのような誤解を招くような偏ったサンプルを描いたのは、本当に、本当に低いです。これは基本的に、関心のある母集団の統計が実際に存在する場所についての非常に狭い信頼区間を報告するときに私が説明し、伝達していることです。
ここから逆戻りすると、もちろん、信頼が始まります。減少するため、もっともらしい母集団値の間隔は、その間隔が数直線のどこにあっても、広がり始めます。私のサンプルはいつものように決定論的であり、サンプルの平均と相関を計算でき、それらの統計を処理できます。母集団に関する完全なデータがある場合に計算する内容についての主張であるかのように、サンプルが小さいほど、それらの主張について懐疑的になる必要があり、その可能性に対してより多くの信頼を与える必要があります。母集団のデータは、このサンプルで見たものとはかけ離れているので、これはすべて、質問に逆に答えることです。サンプル外の統計の推定値は、信頼性が高くなり、単一の点に収束します。 、担当者特定の知識を完全なデータで憤慨させるのは、それらが不確実になり、データの範囲が狭くなるのと同じ理由です。
統計の標準偏差を理解することも重要です。 具体的には、同じ母集団からランダムに抽出されたさまざまなサンプルでさまざまなサンプル統計を取得する確率を参照して定量化します。これも、対象の統計に対して1つの真の値しかありません。母集団自体には、その統計の標準偏差はまったくありません。これは一定の数であり、変化しません。一方、変数には、母集団と任意のサンプルの両方で独自の標準偏差があり、母集団の標準偏差の推定値が あります。特定のサイズの特定のサンプル内のその変数の既知の標準偏差。したがって、母集団の推定点の周りに標準偏差(または標準誤差)を設定できる場合は、すべての参照をまっすぐに保つことが重要です。サンプル内のその変数の標準偏差に基づく変数の標準偏差。それについて話す簡単な方法はありません。
そして最後に、はい、確かに可能であることに注意してください。母集団の分散の偏った表現を提供するサンプル。したがって、比較的可能性は低いですが、より小さなサンプルが、関心のある母集団の統計についてあなたに嘘をつくだけでなく、あなたにも嘘をつく可能性が常にあります。関心のある統計がサンプルとどの程度異なると予想する必要がありますかサンプルへのファイル。それを回避する方法はありません。誰かが主張し、嘘をついているかどうかを尋ねるようなものだと考えてください。たぶん彼らはイエスと言うでしょう、その場合あなたは彼らが「あなたに検討する価値のあることを何も言っていない」と確信することができます。しかし彼らがノーと言うなら、あなたはちょっと正方に戻っています。彼らは「嘘をついている」かそうでないかのどちらかであり、他に尋ねる人がいない場合は、彼らを信じるかどうかを選択するだけです。 (ベイジアンは、その決定を下すためのより良い方法があると考えているようですが、私は謙虚に同意しません。)