PR 곡선 아래 영역 해석

현재 세 가지 방법을 비교하고 있으며 정확도, auROC 및 auPR을 측정 항목으로 사용하고 있습니다. 결과 :

방법 A-acc : 0.75, auROC : 0.75, auPR : 0.45

방법 B-acc : 0.65, auROC : 0.55, auPR : 0.40

방법 C-acc : 0.55, auROC : 0.70, auPR : 0.65

저는 정확성과 auROC에 대해 잘 알고 있습니다 (잘 기억하기 위해 저는 종종 “auROC = characterize the 긍정 클래스를 잘 예측할 수있는 능력 “은 정확하지는 않지만 기억하는 데 도움이됩니다.) 이전에는 auPR 데이터가 없었고 어떻게 구축되었는지 이해하는 동안”감정 “을 얻을 수 없습니다.

사실 C 방법이 auPR에 대해 믿을 수 없을 정도로 높은 점수를 받았지만 정확도와 auPR에 대해서는 평균이 나쁘지만 왜 그런지 이해하지 못합니다.

누군가가 그것을 이해하도록 도울 수 있다면 a 정말 좋을 간단한 설명으로 조금 더 좋습니다. 감사합니다.

답변

ROC 및 PR 곡선의 한 축은 동일합니다. 즉, TPR입니다. 얼마나 많은 양성 사례가 올바르게 분류되었는지 데이터의 모든 긍정적 인 사례 중.

다른 축은 다릅니다. ROC는 FPR을 사용하는데, 이는 데이터의 모든 네거티브 중에서 실수로 긍정으로 선언 된 수입니다. PR 곡선은 정밀도를 사용합니다 : 긍정으로 예측 된 모든 것 중 얼마나 많은 참 긍정. 따라서 두 번째 축의 밑면이 다릅니다. ROC는 데이터에있는 내용을 사용하고 PR은 예측에있는 내용을 기준으로 사용합니다.

PR 곡선은 데이터에 높은 수준의 불균형이있을 때 더 많은 정보를 제공하는 것으로 생각됩니다.이 문서를 참조하십시오. http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf

주석

  • auROC의 경우 0.5가 최소값입니다 (조건을 반전하면 적을수록 더 좋기 때문입니다). auPR에 유사한 규칙이 있습니까? 또한 내 측정과 관련하여 방법 C의 점수를보고 무엇을 주장 할 수 있습니까? 저는 ' 3 개의 경우에 동일한 데이터 세트로 작업하고 있으며, 클래스간에 다소 균등 한 분포를 가진 데이터 세트에 대한 관점에서 보면 ' auROC와 auPR이 내 방법에 대해 동일한 순위를 따르지 않는다는 것은 이해가되지 않습니다.
  • auPR에서 무작위 분류 자 점수는 무엇입니까? auROC에서 ' 0.5라는 것을 알고 있지만 auPR에서는 알 수 없습니다.
  • 무작위 분류기의 예상 auPR 점수는 참 긍정의 비율입니다. 데이터 세트의 케이스. 그것은 당신이 클래스를 추측 할 때 기대할 수있는 정밀도이며 모든 수준의 재현율에 대해 정밀도를 얻을 수 있습니다. 따라서 임의 분류기에 대한 예상 PR 곡선은 변 길이가 " 참 양성 비율 " x 1 인 직사각형입니다. 예를 들어, 데이터 세트에 10 % 양성 사례와 90 % 음성 사례가 포함 된 경우 예상되는 auPR은 0.1입니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다