製品のカテゴリに値を割り当てる統計があります。この統計は、強い二峰性を示しています(グラフを参照)。分析のために、その統計の値を各製品に割り当てようとしています(編集:製品が観測値である回帰分析を実行するため)。製品が1つのカテゴリのみに含まれる場合、これは簡単です。ただし、製品に複数のカテゴリが割り当てられていると、困難になります。統計はバイモーダルであるため、製品のすべてのカテゴリの値の平均を取ることは無意味です。この種の要約統計量を取得する方法があるかどうか知りたいですか?
私の質問には2つの関連部分があります:
a)すばやく検索すると、マルチモダリティ(アッシュマンのD、バイモダリティインデックス)を評価する方法がいくつかあることがわかりました。 、バイモダリティ係数)が、バイモーダル分布から引き出されたいくつかの値を要約する簡単な方法はありません。しかし、何かを見逃したかどうか知りたいですか?当面の問題については、bで説明したアプローチを採用すると思いますが、将来的には、そのような場合にそのタイプのデータを要約するために何ができるかを知りたいと思いますか?
b)現時点で採用を検討しているアプローチは、統計を3つのカテゴリに変換することです。 1つは、ゼロに近い値用に1つ、10前後の値用に1つ、最後に5前後の値用に1つです。次に、製品ごとに、属するカテゴリが各範囲にリストされている回数をカウントします。 sは理論的には理にかなっていますが、私が見逃している統計上の落とし穴があるかどうか疑問に思っていますか? (このアプローチは、ここで採用されたアプローチと(非常に)大まかに関連しているようです。これは、分布を2つの母集団に分割することを検討しています。
コメント
- 目標によって異なりますが、混合モデルを使用して、2つのモードに対応する2つの分布を見つけることをお勧めします。 '各製品にその統計の値を割り当てようとしている "の意味がわかりません" ?
- データのグラフを表示するのを忘れたようです。
- @AdamOデータのグラフの種類を教えてください。見てみたいです?散布図?そうでない場合は、何が役立つか教えてください。追加します。
- @jerad "各製品にその統計値を割り当てます"(投稿のテキストも修正しました)は、積が観測値である回帰モデルの変数として使用したいということです。これが、複数のカテゴリを持つ製品の要約値を見つけたい理由です。
- 申し訳ありませんが、密度プロットは、表示時に'読み込まれませんでした。以前のブラウザで。
回答
統計は二峰性であり、製品のすべてのカテゴリの値の平均を取ることは無意味です。
これは必ずしも正しいとは思いません。たとえば、 、乳がんのリスクは、遺伝子マーカーに基づいて高リスクと低リスクに高度に階層化されています。遺伝子コードが何であるかわからない場合でも、平均を報告することは理にかなっています。
変数のカットを作成するカットオフの任意の選択に関連する問題があります。これにより、混合正規分布に由来するモードの推定にバイアスが発生します。別のアプローチは、混合分布の「高」グループと「低」グループの割り当てを同時に推定し、各グループの平均とその標準誤差のCIを計算できるEMアルゴリズムのアプローチです。 Rはこのドキュメントにあります。
コメント
- 正しく理解できれば、EMアルゴリズムでできることは、値が第1または第2の単峰性分布に属しているかどうか、およびどの確率であるかを判断できることです。
- はいEMは、グループメンバーシップインジケーターを繰り返し推定することで機能しますおよび各グループ間の平均。