回答者の年齢のヒストグラムを作成し、非常に優れたベル型の曲線を取得できたため、分布は正規分布であると結論付けました。
次に、SPSSで n = 169の正規性検定を実行しました。コルモゴロフ-スミルノフ検定の p 値(Sig。)は0.05未満です。そのため、データは正規性の仮定に違反しています。
テストで年齢分布が正常ではないことが示されているのに、ヒストグラムに釣鐘型の曲線が表示されたのはなぜですか。どの結果に従う必要がありますか?
コメント
- 正規性をテストする理由
- @Glen_b ‘優れたコメントと Aksakal ‘同様に優れた回答。連続分布の場合でも、KSでは、データから推定するのではなく、平均とsdを事前に知っている必要があることに注意してください。これは本質的にK-Sテストを役に立たなくします。 “コルモゴロフ-スミルノフ検定は、歴史的な好奇心にすぎません。絶対に使用しないでください。”(D ‘ Agostino in d ‘ Agostino & Stephens、eds。、1986)。あるとしても、代わりにシャピロ-ウィルクを使用してください。
- @Stephan Kolassa良いアドバイスですが、あなたはシャピロ-ウィルクを意味します。 (MBWilkとSSWilksの提案は、しばしば混乱したり混乱したりします。ここで英語を所有する’の奇妙な使用も、英語を持っている多くの人にとっても混乱の一因となる可能性があります。最初の言語として。)
- @StephanKolassaのコメントに関連して、 Shapiro-Wilkは最高の正規性検定ですか?を参照してください…答えは、’どの代替案に関心があるかによって、必ずしも’ではないということですが、多くの場合、これは良い選択です。 。
回答
私たちは通常それを知っています変数を正確に正規分布させることは不可能です…
正規分布では、どちらの方向にも無限に長いテールが伸びています。 -データがこれらの極端な場所にある可能性は低いですが、真の正規分布の場合、物理的に可能である必要があります。年齢の場合、正規分布モデルは、データが平均より5標準偏差上または下にある確率がゼロではないと予測します。これは、0未満または150を超えるなど、物理的に不可能な年齢に対応します。 人口ピラミッドの場合、そもそも年齢がほぼ正規分布であると予想される理由は明確ではありません。)同様に、身長データがある場合、直感的には、より「正規のような」分布に従う可能性があります。高さが0cm未満または300cmを超える可能性がある場合にのみ、本当に正常である可能性があります。
I “veデータを平均ゼロにすることでこの問題を回避できることが時々見られました。そうすれば、正と負の両方の「中心年齢」が可能になります。ただし、これにより負の値が物理的にもっともらしく解釈可能になりますが(負の中心値は平均より下にある実際の値に対応します)、正規モデルがゼロ以外の確率で物理的に不可能な予測を生成するという問題を回避することはできません。モデル化された「中心年齢」を「実際の年齢」にデコードします。
…では、なぜわざわざテストするのですか?正確でなくても、正規性は依然として可能です。有用なモデルになる
重要な問題は、データが正確に正常であるかどうかではありません。事前に 「ほとんどの場合、仮説検定を実行しなくてもそうではありませんが、近似がニーズに十分に近いかどうか。質問を参照してください。正規性検定は本質的に役に立たないのですか?正規分布は多くの目的に便利な近似です。「正しい」ことはめったにありませんが、通常は正確である必要はありません。役に立つように正しく。正規分布は通常、人々の身長の妥当なモデルであると思いますが、正規分布が人々の年齢のモデルとして意味をなすには、より珍しいコンテキストが必要になります。
正規性検定を実行する必要性を本当に感じている場合は、コルモゴロフ-スミルノフはおそらく最良の選択肢ではありません。コメントに記載されているように、より強力な検定が利用可能です。 シャピロ-ウィルクは、考えられるさまざまな選択肢に対して優れた能力を備えており、「真の平均と分散を事前に知る必要がない」という利点があります。ただし、小さいサンプルでは、正規性からの非常に大きな偏差が検出されない可能性があることに注意してください。一方、大きいサンプルでは、正規性からの非常に小さい(そして実用的な目的では無関係な)偏差でさえ、「非常に重要」(低い p -value)。
「ベル型」は必ずしも正常ではありません
「ベル型」データ(中央でピークになり、テールで確率が低い対称データ)を「通常」と考えるように言われているようですが、通常の分布ピークとテールに特定の形状が必要です。一見したところ同様の形状を持つ他の分布があります。これも「ベル型」として特徴付けられている可能性がありますが、正常ではありません。 「たくさんのデータを持っていない限り」、「この既製のディストリビューションのように見えますが、他のディストリビューションのようには見えない」と区別できる可能性はほとんどありません。また、大量のデータがある場合は、「既成の」ディストリビューションのようにまったく見えない可能性があります。ただし、その場合、多くの目的で、経験的CDF を使用することもできます。
ベル型の”分布のギャラリー
正規分布は、慣れ親しんだ「ベルの形」です。コーシーは、ピークが鋭く、「重い」(つまり、より高い確率)テール; 5自由度の t 分布はその中間にあります(正規分布は t は無限のdfで、Cauchyは t で1dfなので、それは理にかなっています); ラプラスまたは二重指数分布はpdfは、2つの再スケーリングされた指数分布から連続して形成され、正規分布よりも鋭いピークになります。ベータ分布はまったく異なります。インフィニに向かう尾を持っているたとえば、代わりに鋭いカットオフがありますが、それでも中央に「こぶ」の形をとることができます。実際には、パラメーターをいじってみると、一種の「歪んだこぶ」、または「U」字型を取得することもできます。リンクされたWikipediaページのギャラリーは、その分布の柔軟性について非常に有益です。最後に、三角分布は、有限サポートに関するもう1つの単純な分布であり、リスクモデリングでよく使用されます。
これらの分布のいずれもがあなたを正確に記述していない可能性があります。データ、および同様の形状を持つ他の非常に多くの分布が存在しますが、「中央にこぶがあり、ほぼ対称は正常を意味する」という誤解に対処したいと思いました。年齢データには物理的な制限があるため、年齢データが途中で「こぶ」になっている場合でも、ベータのような有限サポートの分布、または三角分布でさえ、のような無限テールの分布よりも優れたモデルであることが証明される可能性があります。データが実際に正規分布している場合でも、サンプルサイズがかなり大きくない限り、ヒストグラムが従来の「ベル」に似ている可能性は低いことに注意してください。ラプラスのような分布のサンプルでさえ、pdfがそれと明確に区別できます。尖点による正規分布では、真に正規分布のサンプルとほぼ同じように視覚的にベルに似たヒストグラムが生成される場合があります。
Rコード
par(mfrow=c(3,2)) plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)") plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular") par(mfrow=c(3,2)) normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")} laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")} # No random seed is set # Re-run the code to see the variability in histograms you might expect from sample to sample normalhist(50); laplacehist(50) normalhist(100); laplacehist(100) normalhist(200); laplacehist(200)
回答
年齢を通常から変更することはできません分布。ログを考える本質的に:負の年齢を持つことはできませんが、正規分布では負の数が可能です。
そこには多くの釣鐘型の分布があります。何かがベル型に見える場合、それは正常である必要があるという意味ではありません。
データがどの分布から来ているかなど、統計で何かを確実に知る方法はありません。形状は手がかり:ベルの形は正規分布の1つの引数です。また、データを理解することは非常に重要です。年齢などの変数は歪んでいることが多く、正規性が除外されます。前述のように、正規分布には限界がありませんが、使用されることもあります。有界変数の場合。たとえば、平均年齢が20歳で、標準偏差が1の場合、年齢< 17または> 23の確率は0.3%未満です。 、正規分布が適切な近似である可能性があります。
Jarque-Beraなどの正規性の統計テストを実行してみてください。これはのスキューとクルトシスを考慮に入れています。場合によっては、クルトーシスが重要になることがあります。正規分布でデータをモデル化したが、データが実際にはファットテール分布からのものである場合、資産のリスクと価格を過小評価してしまう可能性があるため、これは財務において非常に重要です。
平均、分散、歪度、クルトシスなど、年齢と身長のデータの説明的な統計またはヒストグラムを報告すると役立ちます。
コメント
- ご協力いただきありがとうございます。特定のデータが正規分布からのものであることを知る方法を教えてください。たとえば、年齢は正規分布からのものではないという回答で、身長などの他のデータについてはどうでしょうか。知っておく必要があります。これは初めてなので、概念を誤解しているようです。ありがとうございます。
- ただし、正規分布はであることが多い。年齢などの変数の近似として使用されます。
age_centred
をで、平均が0で、標準偏差が正と負の値を持つ変数があります。だから私は’それほど厳しくはしません。 - 人の身長をマイナスにすることもできませんが、’ tは、高さが正規分布であると説明する際の障壁になります。さらに言えば、有限にしかできない測定に無限の境界を持つ分布を使用するのはなぜですか? @Timが言うように、データと目的が与えられれば、それはすべて許容できる近似の問題です。
- 正規分布は、制限されたデータの適切な近似になる場合があることに同意します。しかし、問題はデータが正規分布であるかどうかについてでした。
- 高校を卒業する高齢者の年齢は、正規分布である可能性があり、@ Timが述べたように平均を中心にすると、負の値になる可能性もあります。