これは歪んだ分散ですか、それともバイモーダルですか?

この分布は右に歪んでいて二峰性である可能性があります。それとも、ちょうどいいスキューだけですか?

ここに画像の説明を入力してください

コメント

  • まず、この回答をご覧ください。
  • 通過するヒストグラムしかありませんか?

回答

ヒストグラムが実際にあった場合データが引き出された分布(それは明らかに区分的に均一なものになります)、明らかに2つ以上のモードがあるため、それは右スキュー(ほぼすべての合理的な尺度による)でマルチモーダルであると言えます。

しかし、おそらく、ヒストグラムを使用して人口分布について何かを推測しようとしています。

ここで2つの問題があります。

  1. サンプリングの変動(「ノイズ」)からサンプルに見られるものを伝える通常の方法。スキューではない母集団をサンプリングすると、確かにスキューに見えるサンプルになる可能性があり、単峰性の母集団をサンプリングすると、複数のモードがあるように見えるサンプルになる可能性があります。

  2. ヒストグラムの外観は、ビン幅、さらにはビン原点の選択によって強く影響を受ける場合があります。問題のヒストグラムに多くのビンがあるという事実は、この種の問題の範囲と頻度の両方を軽減するのに役立ちますが、それでも発生する可能性があります。

元のサンプル複数の表示を検討することで、2番目の問題を大幅に回避できます-いくつかの異なるビン幅とビン原点に対してヒストグラムを作成できるだけでなく、他の表示を使用することもできます-QQプロット、経験的cdfsなど。 (情報を抽出する方法を学ぶのは少し難しいですが、そのような問題の影響はほとんどありません。)

とはいえ、サンプルサイズが大きく、サンプルを想定している場合はそうです。はいくつかの母集団のランダムサンプルであるため、そのようなサンプルが抽出された分布は右スキューであると結論付けるのはかなり安全です。二峰性の印象は比較的弱いですが(少なくともより小さなサンプルでは、実際には二峰性ではない集団で起こることが合理的にわかるかもしれないという意味で)、それでもディスプレイでの二峰性の出現について言及します。

2.の問題を完全に無視すると、今のところ、観測されたものに近い単峰性の分布を検討することで、そのヒストグラムが単峰性の母集団で発生する可能性があるかどうかをある程度理解できます。サンプルで観察されたものと同じくらい単峰性から遠く離れたものを生成できる場合。

状況を単純化するために、約67〜133 *の領域を検討します(ここで、ビン数の推定値を含めました。その地域の関連するビン):

ビン数を含むヒストグラムの抽出

このどちらの側でも、このセグメントの前後のいくつかのビンでは、密度がかなり明らかに減少しています。問題は、合理的に再調整できるかどうかです。 d分布の増加しないセグメントからのランダムサンプルとしてのこの部分?

*特定の部分を選択し、特にこの部分に焦点を当てることの影響はここでは無視されていることに注意してください。本当に無視すべきもの(これは間違いなく「データを見る」という問題を伴います。たとえば、最後に含めたビンの後に次のビンを含めるべきでしたか?)。ただし、とにかく先に課金して、増加しない密度がデータと互換性があるかどうか(ビンの配置を条件とする)の球場のアイデアを与える簡単な分析の感覚を与えるつもりです。このように「奇妙な部分を選んで見る」ことは、一般的に「重要な」ものを見つける可能性を高めることになります。したがって、何も見つからない場合、それができなかったと言う理由はほとんどありません。単峰性である必要があります。

最初に、これが増加しない分布からのサンプルと一致するかどうかを確認するために、増加の測定が必要です。ビンカウントの差を単純に追加することを提案します($ b_i-b_ {i -1} $)増加するたびに(それ以外の場合は0をカウントします)、つまり$ U = \ sum_i(b_i-b_ {i-1})_ + $。したがって、ビンカウントが369、373、413、375、382の場合、375アップジャンプの合計はU = 4 + 40 + 0 + 7 + 0 = 51です。

ディスプレイを作成するための「最良の」増加しないケースはユニフォームになります。

この領域の合計数は2287で、6つのビンがあります。

6つの同じように可能性の高いカテゴリからのサイズ2287のサンプルが合計を生成する可能性はどのくらいですか。ジャンプ、少なくとも51の$ U $?それはシミュレーションで簡単に見つけられるものです。

Rで試してみる:

 res=replicate(10000,{ d=diff(table(sample(6,2287,replace=TRUE)));sum(ifelse(d>0,d,0)) }) mean(res>=51) [1] 0.5349 

したがって、これは、密度の均一なセクションで、その量の増加を簡単に確認できることを示しています。そのサイズのサンプルから、約半分の時間で、均一であれば少なくともその分増加します。

もちろん、他の方法を選択したかもしれませんが、それで十分です。そのセクションの均一性と一致しているため、ヒストグラムは全体的な単峰性分布からのランダムサンプルと矛盾していません。

[編集:完全を期すために、後で戻って他のいくつかの合理的なものを調べました。統計量をテストして、大きな違いが生じるかどうかを確認しますが、「何も示さなかった]

もちろん、それだけでは単峰性であると宣言するのに十分ではありません。 「単峰性ではありません。

だから私はそれを右に歪んでいるように見えると説明します。人口が複数のモードを持っているかどうかについて話さなければならない場合、私は「100近くのどこかに2番目のモードの可能性がある」とまで言っているだけですが、これから何かを結論付けるのは難しいです表示します。

コメント

  • うわー、すごいです。これにより、状況が非常に明確になります。ありがとうございます。
  • "もちろん'はXであると宣言するのに十分ではありません。' 'はYではないことを伝えます。" -統計情報を簡単に説明します。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です