PR曲線の下の領域の解釈

現在3つの方法を比較しており、メトリックとして精度、auROC、およびauPRを使用しています。次の方法があります。結果:

メソッドA-acc:0.75、auROC:0.75、auPR:0.45

メソッドB-acc:0.65、auROC:0.55、auPR:0.40

方法C-acc:0.55、auROC:0.70、auPR:0.65

精度とauROCをよく理解しています(よく覚えておくと、「auROC =特性を明らかにする」のような文を思い付くことがよくあります。ポジティブクラスをうまく予測する能力」、正確には正確ではありませんが、覚えておくのに役立ちます。これまでauPRデータを持ったことがなく、その構築方法を理解している間は、その背後にある「感覚」を得ることができません。

実際、メソッドCのauPRのスコアが非常に高いのに、精度とauPRのスコアが悪い/平均的である理由がわかりません。

誰かがそれを理解するのを手伝ってくれるとしたら本当に素晴らしいだろう簡単な説明で少し良くなります。ありがとうございました。

回答

ROC曲線とPR曲線の1つの軸は同じです。つまり、TPR:正のケースがいくつ正しく分類されているかです。データ内のすべての肯定的なケースのうち。

もう一方の軸が異なります。 ROCはFPRを使用します。これは、データ内のすべてのネガティブのうち、誤ってポジティブと宣言された数です。 PR曲線は精度を使用します。つまり、陽性として予測されたすべての真の陽性のうちの数です。したがって、2番目の軸の底辺は異なります。 ROCはデータの内容を使用し、PRは予測の内容を基準として使用します。

PR曲線は、データに高度なクラスの不均衡がある場合に、より有益であると考えられます。このペーパーを参照してください http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf

コメント

  • auROCの場合、0.5が最小です(予測を逆にすると少ない方がよいため)。 auPRに同様のルールはありますか?私の測定についても:方法Cのスコアを見て何を主張できますか?私は' 3つのケースで同じデータセットを使用しているため、クラス間でほぼ均等に分布しているデータセットの観点からは、' auROCとauPRが私のメソッドの同じランキングに従わないことは意味がありません。
  • auPRのランダム分類子スコアは何ですか? auROCでは' 0.5ですが、auPRではわかりません。
  • ランダム分類子の予想されるauPRスコアは、真陽性の割合にすぎません。データセット内のケース。これは、クラスを推測した場合に期待される精度であり、すべてのレベルのリコールでその精度が得られます。したがって、ランダム分類子に期待されるPR曲線は、辺の長さが"真陽性の割合" x1の長方形にすぎません。たとえば、データセットに10%の陽性症例と90%の陰性症例が含まれている場合、偶然に予想されるauPRは0.1です。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です