分割表からROC曲線の下の面積を計算する式は何ですか?

たとえば、テーブルが次の場合:

 True Value (gold standard) Positive | Negative | | | | | Test | Pos | A | B | Result | | | | | Neg | C | D | | | | | 

コメント

  • 'は、この質問に対する有用な回答があるかどうかはわかりません。受信者動作特性(ROC)曲線は、モデルからその選択を行うためのしきい値を変更する際の、真陽性分類と偽陽性分類の間のトレードオフの範囲を表します。分割表は、そのしきい値の特定の選択での分類結果を表します。面積のようなものを計算できるかもしれませんが(ここで提案された回答の1つがそうであるように)、完全なモデルのROC曲線の下の面積を本当に表すかどうかは明確ではありません' 。
  • 予測子が二分されているため、しきい値が1つしかない場合でも、AUCは(いくつかの)有用な情報を提供すると思います。
  • @JeremyMilesの重要な例を提供してください。しきい値が1つしかない予測子。
  • @ PavelTyshevskyi-確かに。 (私はこの質問の文脈が何であったかを忘れています)。私は広告を分類する評価者と協力しています。一例はポルノです(これは悪いです)。評価者に"この広告はポルノ用ですか?"「はい」または「いいえ」と答えます。

回答

一般的な場合:できません

ROC曲線は、感度と特異性がどのように変化するかを示しています考えられるすべてのしきい値。偶発事象テーブルは単一のしきい値で計算され、他のしきい値に関する情報は失われました。したがって、この要約されたデータからROC曲線を計算することはできません。

しかし、分類器はバイナリであるため、単一のしきい値があります

バイナリ分類器は実際にはバイナリではありません。最終的なバイナリ決定のみを公開する場合でも、私が知っているすべての分類器は、内部で何らかの定量的推定に依存しています。

  • バイナリ決定ツリー?回帰ツリーを構築してみてください。
  • 分類子SVM?サポートベクトル回帰を実行します。
  • ロジスティック回帰?取得生の確率へのアクセス。
  • ニューラルネットワーク?tの数値出力を使用します代わりに最後のレイヤーです。

これにより、ニーズに最適な分類を取得するための最適なしきい値をより自由に選択できるようになります。

しかし、私は本当にやりたいと思っています。

あなたは本当にすべきではありません。しきい値がほとんどないROC曲線は、曲線の下の実際の面積を大幅に過小評価しています(1)。単一点のROC曲線は最悪のシナリオであり、連続分類器との比較は不正確で誤解を招く可能性があります。

答えを教えてください!

わかりました、わかりました。 、あなたが勝ちます。単一の点で、AUCを2つの三角形TとUの合計と見なすことができます。

ROC曲線1つの(SP、SE)ペアと2つの三角形

分割表(定義したA、B、C、D)に基づいてそれらの領域を取得できます:

$$ \ begin {align *} T = \ frac {1 \ times SE} {2} & = \ frac {SE} {2} = \ frac {A} {2(A + C)} \\ U = \ frac {SP \ times 1} {2} & = \ frac {SP} {2} = \ frac {D} {2(B + D)} \ end {align *} $$

AUCの取得: $$ \ begin {align *} AUC & = T + U \\ & = \ frac {A} {2(A + C)} + \ frac {D} {2(B + D)} \\ & = \ frac {SE + SP} {2} \ end { align *} $$

結論

混同行列からバイナリ分類器のROCAUCを技術的に計算できます。ただし、不明な点がある場合に備えて、最後にもう一度繰り返します。絶対にしないでください!

参考文献

(1)DeLong ER、DeLong DM、Clarke-Pearson DL:2つ以上の相関する受信者動作特性曲線の下の領域の比較:ノンパラメトリックアプローチ。バイオメトリクス1988,44:837-845。 https://www.jstor.org/stable/2531595

コメント

  • 単一のポイントを持つこの例は、本当に誤解を招く可能性があります。たとえば、(1、0)にポイントがあると、計算によるとAUC = 1になります。ポイントの下の領域は常にゼロです。分割表を本当に要約する必要がある場合は、f1スコアまたは情報を使用してください。
  • @PavelTyshevskyi ROC曲線は常に曲線であり、単一の点ではありません。 1特異性を示していることを忘れないでください。これは、おそらく混乱を招く原因です。
  • @PavelTyshevskyiつまり、(1、0)は実際には0特異度0感度であるため、AUCは予想どおり0になります。
  • あなたは'正解です、私は'軸と混同しました。それでも'正しく聞こえません。(0,0)と(1、1)を使用して、分割表からse、spと一緒に領域を構築しています。説明をありがとう。
  • @PavelTyshevskyiもう少し具体的に教えていただけますか? 答えは正解です。そもそもなぜ'そうすべきではないのかをはっきりと指摘していると思います。 しかし、私はあなたに保証します、それは絶対に正しいです。

答え

私がそれらすべてが否定的であると主張するとき、 次に、感度(y)= 0、1-特異度(x)= 0。テスト結果に従って正/負を主張する場合、y = A /(A + C)、x = B /(B + D)。 それらすべてが正であると言うと、y = 1およびx = 1です。

座標(0,0)(A /(A + C)、B /(B + D))(1,1)、((y、x)の順序で)、三角形の面積の式を使用して、曲線の下の面積を簡単に計算できます。

最終結果:面積= $ \ frac {AB + 2AD + 2CD} {(A + C)(B + D)} $ ? 確認する必要があります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です