一般的な分布の実際の例

私は統計に興味を持っている大学院生です。全体的には好きですが、実生活への応用を考えるのに苦労することもあります。具体的には、私の質問は、一般的に使用される統計分布(正規-ベータ-ガンマなど)についてです。場合によっては、分布を非常に良くする特定のプロパティ(たとえば、指数関数のメモリレスプロパティ)を取得すると思います。しかし、他の多くの場合、教科書に見られる一般的なディストリビューションの重要性と応用分野の両方について直感がありません。

おそらく、私の懸念に対処する優れた情報源はたくさんあります。それらを共有していただければ幸いです。実際の例と関連付けることができれば、資料にもっと意欲的になります。

コメント

  • 幅広いディストリビューションをカバーする14種類のアプリケーションは、iv id = “b9e6e86ab0″の”アプリケーション”で説明されています。 >

Mathematica ‘ s EstimatedDistribution関数のヘルプページ。

回答

ウィキペディアには、多くの確率分布を一覧表示するページがあります各ディストリビューションの詳細へのリンク付き。リストを確認し、リンクをたどると、タイプの感触がよくなります。さまざまな分布が一般的に使用されるアプリケーション。

これらの分布は現実をモデル化するために使用され、Boxが述べたように、「すべてのモデルが間違っている、一部のモデルは有用である」ことを覚えておいてください。

一般的な分布のいくつかとそれらが役立つ理由のいくつかを次に示します。

通常:これは、平均や他の線形結合を調べるのに役立ちます(例回帰係数)CLTのため。これに関連して、多くの異なる小さな原因の相加効果によって何かが発生することがわかっている場合、正常は合理的な分布である可能性があります。たとえば、多くの生物学的測定は複数の遺伝子と複数の環境要因の結果であり、したがってほとんど正常です。 。

ガンマ:右に歪んでいて、自然な最小値が0の場合に役立ちます。通常、経過時間と一部の財務変数に使用されます。

指数:ガンマの特殊なケース。記憶がなく、簡単にスケーリングできます。

カイ2乗($ \ chi ^ 2 $):ガンマの特殊なケース。正規変数の2乗の合計として発生します(分散に使用されます)。

ベータ:0から1の間で定義されます(ただし、他の値の間になるように変換できます)。比率または他の量の間である必要がある場合に役立ちます。 0と1。

二項:「成功」の確率が同じである、指定された数の独立した試行からの「成功」の数。

ポアソン:カウントに共通。ある期間または領域のイベント数がポアソンに従う場合、時間または領域の2倍の数がポアソンに従う(平均の2倍)という優れた特性:これは、ポアソンを追加したり、以外の値でスケーリングしたりする場合に機能します。 2.

イベントが時間の経過とともに発生し、発生間の時間がポアソンに従う場合、その期間に発生する数はポアソンに従うことに注意してください。

負の二項:最小でカウント0(またはバージョンによっては他の値)で上限はありません。概念的には、k個の「成功」の前の「失敗」の数です。負の二項もポアソン変数の混合であり、その平均はガンマ分布に由来します。

幾何学:負の二項の特殊なケースで、最初の「成功」の前の「失敗」の数です。指数変数を切り捨てて(切り捨てて)離散化すると、結果は幾何学的になります。

コメント

  • ご回答ありがとうございます。ただし、ウィキペディアには、私が’必要とするより一般的な説明が記載されています。基本的に、私の質問は、なぜいくつかのディストリビューションが素晴らしいのかということです。正規分布の場合に考えられる答えを与えるために、中央限定定理に関連している可能性があります-無限の量の観測値をサンプリングすると、実際には、独立性が与えられた場合に、それらの観測値の十分統計量が正規分布であることがわかります。 。そのような例をもっと探しています。
  • 実際の分布ではありませんが、バイモーダルはどうですか? ‘人間の性差の多くが二項分布ではないことがわかった後、一般的に見られる実際の例を考えることはできません。
  • 多項分布を追加

回答

William J. Fellerの少なくとも最初の6章(最初の218ページ)を購入して読んでください。 “確率論とその応用の紹介、第2巻 “ http://www.amazon.com/dp/0471257095/ref=rdr_ext_tmb 。少なくとも解決のためのすべての問題を読み、できればできるだけ多くの問題を解決してみてください。私の意見では特に価値のあるものではない第1巻を読む必要はありません。

著者が45年半前に亡くなったにもかかわらず、本が完成する前に、これは単に確率と確率過程の直感を発達させ、さまざまな分布、それらが現実世界の現象とどのように関連しているか、そして起こり得るさまざまな確率現象の感触を理解して発展させるための最高の本があります。そこから構築する基盤は、統計で十分に役立ちます。

やや難しくなる後続の章を通過できれば、ほとんどすべての人よりも数年先を行くことになります。簡単に言えば、 Feller Vol 2を知っていれば、確率(および確率過程)を知っています。つまり、新しい開発など、知らないことはすべて、その強固な基盤の上に構築することで、すばやく習得して習得することができます。

このスレッドで前述したほとんどすべてがFeller Vol 2(Kendall Advanced Theory of Statisticsのすべての資料ではありませんが、その本を読むことはFeller Vol 2の後の簡単なことです)、そしてさらに多くのこと、あなたの確率論的思考を発展させる方法ですべてと直感。 Johnson and Kotzは、さまざまな確率分布の特徴点に適しています。FellerVol2は、確率論的に考える方法を学び、Johnson andKotzから何を抽出して使用するかを知るのに役立ちます。

回答

漸近理論は、正規分布、極値型、安定法則、およびポアソンにつながります。指数関数とワイブル分布は、イベント分布のパラメトリック時間として現れる傾向があります。ワイブルの場合、サンプルの最小値の極値タイプです。正規分布観測のパラメトリックモデルに関連して、カイ2乗、tおよびF分布は、仮説検定および信頼区間推定で発生します。カイ2乗は、分割表分析および適合度検定でも発生します。テストの検出力を研究するために、非心t分布とF分布があります。超幾何分布は、分割表のフィッシャーの直接確率検定で発生します。比率を推定する実験を行う場合、二項分布は重要です。負の二項分布は、ポイントプロセスでの過分散をモデル化するための重要な分布です。これにより、実用的な開始が可能になります。パラメトリック分布。(0、∞)の非負のランダム変数の場合、ガンマ分布はさまざまな形状を提供するために柔軟であり、対数正規分布も一般的に使用されます。[0,1]では、ベータファミリーは均一も含む対称分布を提供します。分布が左に歪んでいるか、右に歪んでいるため。

統計の分布に関する詳細をすべて知りたい場合は、ジョンソンとコッツによる離散分布を含む古典的な一連の本があります。連続単変量分布と連続多変量分布、およびケンダルとスチュアートによる高度な統計理論の第1巻。

コメント

  • 回答ありがとうございます。これは非常に便利です。本当にありがとうございました。

回答

他の優れた回答に追加するだけです。

ポアソン分布は、他の人が言及しているように、計数変数がある場合はいつでも役立ちます。しかし、もっと多くのことが言われるべきです!ポアソンは、$ n $(ベルヌーイ実験の数)が際限なく増加し、$ p $(個々のexperiment()の成功確率がゼロになると、$ \になるように、二項分布変数から漸近的に発生します。 lambda = np $は一定のままで、ゼロと無限大から離れています。これは、個別に非常にありそうもないイベントが多数ある場合に役立つことを示しています。いくつかの良い例は次のとおりです。ニューヨークでの自動車事故の数などの事故1日、2台の車が通過/遭遇するたびに衝突する可能性は非常に低く、そのような機会の数は確かに天文学的なものです!これで、世界の飛行機の衝突の総数など、他の例について考えることができます。プレウスの騎兵隊でのホースキックによる死亡数の典型的な例です!

ポアソンが疫学で使用されている場合、ある病気の症例数をモデル化するために、それが適合しないことがよくあります。まあ:分散も大きい!ポアソンの分散=平均は、二項の限界から簡単に確認できます。二項では、分散は$ np(1-p)$であり、$ p $がゼロになると、必ず$ 1-p $が1になります。したがって、分散は期待値である$ np $になり、両方とも$ \ lambda $になります。1つの方法は、負の二項分布など、平均に等しくなるように条件付けられていない、分散が大きいポアソンの代替を検索することです。 ¿しかし、なぜこの大きな変動の現象が発生するのですか? 1つの可能性は、1人の個人の病気の確率$ p $が一定ではなく、観察された共変量(年齢、職業、喫煙状況など)にも依存しないことです。これは、観察されない不均一性と呼ばれ、モデルが使用されることもあります。は、フレイルモデルまたは混合モデルと呼ばれます。これを行う1つの方法は、母集団の$ p $ “が何らかの分布に由来すると仮定し、それがガンマ分布であると仮定することです(これにより、計算が簡単になります…)、ガンマポアソン分布が得られます- -負の二項分布を回復します!

回答

最近公開された研究一般的な考えに反して、人間のパフォーマンスは正規分布していないことを示唆しています。次の4つの分野のデータを分析しました。(1)最も著名な分野固有のジャーナルでの発行頻度に基づいた50分野の学者。(2 )俳優、ミュージシャン、ライターなどのエンターテイナー、および受賞した名誉ある賞、ノミネート、または賞の数(3)10か国の政治家と選挙/再選の結果(4)最も個性的なものを見ている大学およびプロのアスリートホームランの数、チームスポーツでのレセプション、個人での合計勝利数など、利用可能なメジャーポート。著者は、「データの分析の範囲がどれほど狭くても広くても、各研究で明確で一貫したべき乗則の分布が見られました…」と書いています。

コメント

  • 人間のパフォーマンスが正規分布していることを誰が提案しましたか?! 80-20の法則は、パレート(1906!)によって提案されました。

回答

コーシー分布がよく使用されます資産収益をモデル化するための財務。また、ジョンソンの有界分布と無界分布は柔軟性があるため注目に値します(資産価格、発電、水文学のモデリングに適用しました)。

回答

いくつかの一般的な確率分布

いくつかの一般的な確率分布。 ここ

一様分布(離散) -1つのサイコロを振り、1、2、3、4、5、6のいずれかが落ちる確率は同じです。

一様離散 ここから)

均一な分布(連続)-壁に向かって非常に細かい粉末をスプレーしました。壁の小さな領域では、壁のある場所にほこりが落ちる可能性は均一です。

大きなガスボンベがあります。どの単位面積でも、1秒あたりの内壁の1平方cmあたりに当たるガス分子の数は均一であるように見えます。

ガス衝突ウィキペディアの画像 からここ

ベルヌーイ分布-ベルヌーイ試行(または二項試行)は、”成功

および”失敗”。このような試行では、成功の確率はp、失敗の確率はq = 1-pです。

たとえば、コイントスでは、2つの結果(表または裏)を持つことができます。公正なコインの場合、頭の確率は1/2です。テールの確率は1/2です。これも均一なベルヌーイ分布の一種です。

コイントスでは、頭が出る確率が0.9のようにコインが不公平な場合、テールが落ちる確率があります。 0.1になります。

ベルヌーイ 確率0.6および0.4のベルヌーイ分布。 ここ

二項分布-ベルヌーイ試行(それぞれ確率pとq = 1-pの2つの結果)がn回実行された場合。 (コインがn回投げられた場合など);すべての頭を取得する可能性はわずかであり、すべての尾を取得する可能性はわずかです。頭の特定の値と尾の特定の値が最大になります。この分布は二項分布と呼ばれています。

BINOMIAL チェッカーボードを使用した二項分布。 WP

ポアソン分布から変更された画像ウィキペディアの例:毎日受信するメールの量を追跡している個人は、1日あたり平均4通のメールを受信していることに気付く場合があります。メールが独立したソースからのものである場合の場合、1日に受信されるメールの数はポアソン分布に従います。つまり、1日あたり0または100のメールを受信する可能性はごくわずかですが、1日あたりのメールの最大数(ここでは4)です。

同様に、架空の牧草地でeが1 km ^ 2で約10個の小石を取得するとします。比例してより多くの領域を使用すると、比例してより多くの小石を取得します。おそらくそれはポアソン分布に従います。

ウィキペディアによると、放射源からの1秒あたりの崩壊イベントの数は、ポアソン分布に従います。

ポアソン ポアソンの分布はウィキペディア

正規分布またはガウス分布– n個のダイが同時に転がり、nが非常に大きい場合。各ダイの結果の合計は、中心値を中心にクラスター化される傾向があります。大きすぎず、小さすぎない。この分布は、正規分布または釣鐘型曲線と呼ばれています。

三角形 合計ここ

CLTからの2つのダイの
同時ダイの数が増えると、分布はガウス分布に近づきます。 中心極限定理

から同様に、n個のコインが同時に投げられ、nが非常に大きい場合、私たちが頭が多すぎたり、尻尾が多すぎたりします。ヘッドの数は特定の値を中心にしています。これは二項分布に似ていますが、コインの数はさらに多くなります。

コメント

  • 上記の取り組みに誤解があるかどうかをお知らせください。統計の複雑さが怖いです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です