数週間前に統計を学び始めたばかりですが、私の質問は、平均、中央値、最頻値がデータの中心傾向と、これらの測定値の1つだけを使用するべきではないことを示唆しています。なぜなら、それらの平均、中央値、最頻値が完全に異なるストーリーを示している場合、データの中心傾向を考慮する必要がある状況はほとんどないためです。データについて
例
mean = 43.26 median = 14 and mode = 9
そして私の質問は、これらの測定値から、中心のより良い推定値をどのように解釈すべきかということです。傾向
コメント
- アドバイスを引用してから"非常に奇妙に思えます
どの"を使用する必要があります。アドバイスのどの部分を"ドン'そのうちの1つだけを使用しない"は混乱しますか?。
混乱しないのに、なぜ" "を1つだけ使用することを選択するのですか?
回答
状況が異なれば、答えも異なります。応用統計学者は、根底にある質問に最もよく答える尺度を見つける必要があります。
次の文を検討してください。
ほとんどの人は平均以上の数を持っています足の数
ほとんどの人は2本の足を持っていますが、1本しか持っていない人もいます。したがって、平均はおそらく1.9です…
通りの誰かが「人は何本の足を持っていますか?」と尋ねた場合。彼らは通常、モードである「2本足」という答えを期待します。多くの場合、モードは「通常のもの」です。ただし、遠く離れた国で下肢義足の在庫を計画する必要がある場合は、 mean と人口サイズ。小さなサンプルから平均を評価したいが、外れ値を恐れている多くの場合、中央値はより良い推定量。
したがって、最良の尺度の質問は、普遍的な数学的質問ではなく、必ずしも測定対象に依存するわけではありませんが、実際に取り組む問題に依存します。
回答
私の意見では、答えはあなたの分布の形に依存するはずです。たとえば、ベル型の密度がある場合は、平均を有益な推定量として使用することを検討できます。外れ値が少しある場合、分布が歪んでいる場合、または分布の平均が明確に定義されていない場合は、中央値を使用できます。マルチモーダル分布を使用している場合は、モードを使用できます。
これらの推定量はすべて本質的に異なり、基礎となる確率変数に関するさまざまな情報を提供します。
もう1つ説明する価値があります(これらの推定量の意味の根本的な違いを除いて)は、推定の効率とブレークダウンポイントです。平均は最も効率的な推定量です(あなたの推定はあなたが持っているサイズのサンプルを使用して真の値にできるだけ近くなります)。中央値ははるかに堅牢です(ほぼ50%のブレークダウンポイントがあります)が、効果ははるかに低くなります。 Lehman-Hodges推定量はその中間にあります。カーネル密度推定を介して取得されることが多いこのモードは、まったく効率的ではなく、「外れ値」が50%を超える場合にのみ使用するのが理にかなっています。この場合でも、カーネルに十分注意する必要があります。たとえば、Rのデフォルトのカーネルは歴史的な理由でそこに保持されているため、使用しないでください。
これらは私の意見であり、間違っている可能性があります。
画像クレジット: https://www.tutor2u.net/geography/reference/mean-median-and-mode