私のデータは、毎月の全体からのトランザクションの数に関するパーセンテージです。パーセンテージは13か月間で、97〜99パーセントの範囲です。平均と標準偏差を計算するように求められましたが、結果が意味のあるものになるかどうか、および平均が従来の意味でのパーセンテージ(たとえば、ExcelでAVERAGE(パーセント配列)を実行する場合)と他のいくつかのパーセンテージで計算できるかどうかはわかりません。パーセンテージ以外の情報がないため、方法(加重平均)。
理解を助けてください
- パーセンテージの平均と標準偏差が計算済み、
- パーセンテージの平均と標準偏差を計算するために必要な条件、
- 一定期間におけるパーセンテージの広がりと中心傾向を決定する代替案。
たとえば、パーセンテージが、各月に同じ計算が使用されている、異なる月ごとの#失敗したトランザクション/#合計トランザクションを表すと仮定すると、次のように正しくありません。
Month Data Feb-15 98.0% Mar-15 98.7% Apr-15 97.0% May-15 99.9% Jun-15 98.7% Jul-15 97.9% Mean 98.4% SD (Population) 0.90%
からこの投稿はそのようです合計が異なるため、加重平均を使用して実行する必要があります。パーセンテージの平均と標準偏差の計算は、それらが同じ合計からのものである場合にのみ可能です。つまり、上記は正しくなく、重みを決定するために追加情報が必要になります。正しい場合は、パーセンテージを乗算します。
コメント
- もちろんの平均とSDを計算できます。パーセンテージ:それらを数式にプラグインするだけです。懸念すべきことは、結果の値がどのように解釈されるかです。この計算を実行するように求められた理由と、その結果で何が行われるのか説明していただけますか?
- @whuberはここにあります。結局のところ、パーセンテージは0 'と1 'の平均にすぎません。最も重要なのは、平均と標準偏差を計算できるかどうかではなく、それらをどのように処理したいか、そしてそれがその文脈で意味があるかどうかです。
- 平均と標準偏差を計算することは包括的な要求でした。それらのしきい値を設定するための一連のメトリックの標準偏差。したがって、この例では、98.4%の平均を使用して、今月を測定します。平均からの標準偏差が大きいほど、懸念が大きくなると想定しています。
- ご覧のとおり、平均から2つの標準偏差は、すでに100%を超える領域にあります。新しい観測値が履歴データと比較してどれほど極端であるかを確認することがタスクである場合は、ランク統計の使用を検討できます。例えば。合計月数のうち、今月よりも悪いまたは良い月がいくつあるかを確認してください。 2/13や1/13、さらには0/13のようなスコアが得られます。
- @RichardHardyもちろん、ランクでは、ある値が常に最高で、ある値が最小であるため、すぐには得られません。ランクまたはランク統計が"の解決策をどのように提供するかは明らかです。この値は、懸念されるほど十分に異なっていますか?"
回答
質問にリンクされている記事に記載されているように、整数に対して同じ方法を使用してパーセンテージの平均を計算しないでください。 。
加重平均を使用する必要があります。
この最近の記事を参照してください詳細は https://www.indeed.com/career-advice/career-development/how-to-calculate-average-percentage ですが、質問にリンクされている記事と同じ方法を説明しています。
回答
他の人が指摘しているように、パーセンテージの平均と標準偏差を計算するのが正しいかどうかは、使用傾向がありました。あなたが使用する場合、少なくとも私が理解しているように、それは正しくないようです。
あなたの質問とコメントから理解しているように、あなたは異常検出を行おうとしています。基本的に質問しているのは、次のとおりです。
"通常
、または異常と見なされるほど逸脱していますか?
それに対する明確な答えはありません質問。最善の方法は、確率を計算することです。
トランザクションの既知の確率を
mis "、1か月に指定された数のミスが発生する可能性はどのくらいありますか?
可能性が非常に低い場合(たとえば、確率が0.05未満)、異常であると見なすことができます。したがって、この確率をどのように計算するかという問題が残ります。パーセンテージが正規分布している場合は、平均と標準偏差から簡単に導き出すことができます。平均から2 SD以上離れている値は、0.05未満の確率で表示されます。これがおそらく、これらの値を計算するように求められた理由です。
ただし、パーセンテージは正規分布していません! Richard Hardyがコメントで指摘したように、平均を超える2つのSDは、100%を超えるため、すでに達成できません。別のより適切な確率分布を使用する必要があります。ドメインに関する知識がさらにない場合データのうち、できる最善の方法は、二項分布を使用することです。
$$ P(k)= {n \ choice k} p ^ k( 1-p)^ {nk} $$
$ n $ はトランザクションの数で、 $ k $ 問題の月のミス数。履歴データから
これで、累積を計算できます。少なくとも問題の月に実際に発生したのと同じ数のミスを観察する確率。その確率が事前定義されたレベル(たとえば、上記の0.05)を下回っている場合は、異常と見なします。
完全を期すために:さらに正確にしたい場合(そもそも間違ったタスクが与えられたことを考えると、疑わしいです)、 $ p $ をベータ分布でモデル化し、上記の二項分布で極端であるがもっともらしい $ p $ を使用します。 。ベータ分布のパラメーターは、たとえば $ \ alpha = $ (ミスの数)および $ \ beta = $ (トランザクションの総数 $-$ ミスの数)