분할 표에서 ROC 곡선 아래 면적을 계산하는 공식은 무엇입니까?

예를 들어 내 테이블이 다음과 같은 경우 :

 True Value (gold standard) Positive | Negative | | | | | Test | Pos | A | B | Result | | | | | Neg | C | D | | | | | 

댓글

  • '이 질문에 대한 유용한 답변이있을 수 있다는 것이 분명하지 않습니다. ROC (수신기 작동 특성) 곡선은 모델에서 해당 선택을하기위한 임계 값을 변경함에 따라 참 양성 분류와 거짓 양성 분류 간의 절충 범위를 나타냅니다. 분할 표는 해당 임계 값의 특정 선택 에서 분류 결과를 나타냅니다. 하나의 영역과 같은 것을 계산할 수는 있지만 (여기에 제안 된 답변 중 하나가 수행하는 것처럼) ' 전체 모델의 ROC 곡선 아래 영역을 실제로 나타내는 것이 명확하지 않습니다. .
  • 예측자가 이분법 적이므로 임계 값이 하나뿐이라면 AUC가 여전히 유용한 정보를 제공한다고 생각합니다.
  • @JeremyMiles 임계 값이 하나만 존재하는 예측 변수입니다.
  • @PavelTyshevskyi-물론입니다. (이 질문에 대한 컨텍스트가 무엇인지 잊어 버렸습니다). 나는 광고를 분류하는 평가자와 함께 일합니다. 한 가지 예가 음란물 (나쁜)입니다. 평가자에게 질문합니다. "이 광고는 포르노에 대한 광고입니까? " 예 또는 아니오라고 대답합니다.

답변

일반적인 경우 : 할 수 없습니다

ROC 곡선은 민감도와 특이도가 어떻게 달라지는 지 보여줍니다. 가능한 모든 임계 값 . 분할 표가 단일 임계 값에서 계산되었으며 다른 임계 값에 대한 정보가 손실되었습니다. 따라서이 요약 데이터에서 ROC 곡선을 계산할 수 없습니다.

하지만 내 분류기는 이진이므로 하나의 임계 값이 있습니다.

이진 분류기는 실제로 이진이 아닙니다. 최종 이진 결정 만 노출 할 수 있지만 내가 아는 모든 분류기는 내부적으로 정량적 추정에 의존합니다.

  • 이진 결정 트리? 회귀 트리를 구축해보십시오.
  • 분류 자 SVM? 서포트 벡터 회귀를 수행하십시오.
  • 로지스틱 회귀? 가져 오기 원시 확률에 대한 액세스.
  • 신경망? t의 숫자 출력을 사용합니다. 대신 마지막 레이어입니다.

이렇게하면 최적의 임계 값을 자유롭게 선택하여 필요에 맞는 최상의 분류를 얻을 수 있습니다.

하지만 저는 정말로 원합니다.

정말 안됩니다. 임계 값이 거의없는 ROC 곡선은 곡선 아래의 실제 면적을 상당히 과소 평가합니다 (1). 단일 포인트가있는 ROC 곡선은 최악의 시나리오이며 연속 분류 기와의 비교는 부정확하고 오해의 소지가 있습니다.

그냥 대답 해주세요!

좋아요. , 네가 이겼다. 단일 점으로 AUC를 두 삼각형 T와 U의 합으로 간주 할 수 있습니다.

단일 (SP, SE) 쌍과 두 개의 삼각형

우리는 분할 표 (정의한대로 A, B, C 및 D)를 기반으로 영역을 얻을 수 있습니다.

$$ \ begin {align *} T = \ frac {1 \ times SE} {2} & = \ frac {SE} {2} = \ frac {A} {2 (A + C)} \\ U = \ frac {SP \ times 1} {2} & = \ frac {SP} {2} = \ frac {D} {2 (B + D)} \ end {align *} $$

AUC 얻기 : $$ \ begin {align *} AUC & = T + U \\ & = \ frac {A} {2 (A + C)} + \ frac {D} {2 (B + D)} \\ & = \ frac {SE + SP} {2} \ end { align *} $$

결론

혼동 행렬에서 이진 분류기에 대한 ROC AUC를 기술적으로 계산할 수 있습니다. 하지만 명확하지 않은 경우를 대비하여 마지막으로 다시 한 번 반복하겠습니다. 하지 마세요!

참조

(1) DeLong ER, DeLong DM, Clarke-Pearson DL : 두 개 이상의 상관 수신기 작동 특성 곡선 아래 영역 비교 : 비모수 적 접근. 생체 인식 1988,44 : 837-845. https://www.jstor.org/stable/2531595

댓글

  • 단일 포인트가있는이 예는 실제로 오해의 소지가 있습니다. 예를 들어 (1, 0)에 점이 있으면 계산에 따라 AUC = 1이됩니다. 포인트 아래 영역은 항상 0입니다. 분할 표를 정말로 요약해야한다면 f1 점수 또는 정보를 사용하십시오.
  • @PavelTyshevskyi ROC 곡선은 항상 곡선이며 단일 점이 아닙니다. 1- 특이성을 보여 주므로 아마도 혼란 스러울 것입니다.
  • @PavelTyshevskyi 제 말은 (1, 0)이 실제로 0 특이성 0 민감도이므로 AUC는 예상대로 0이됩니다.
  • 당신 ' 맞습니다. 저는 ' 축과 혼동했습니다. 여전히 ' (0, 0) 및 (1, 1)이 우발 행렬에서 se, sp와 함께 영역을 구성하는 데 사용되는 경우 제대로 들리지 않습니다. 설명해 주셔서 감사합니다.
  • @PavelTyshevskyi 좀 더 구체적으로 말씀해 주시겠습니까? 정답은 맞으며, 애초에 '하지 말아야하는 이유를 분명히 지적한 것 같습니다. 하지만 확실히 정확합니다.

답변

모두 부정적이라고 주장하면 감도 (y) = 0, 1-특이성 (x) = 0. 테스트 결과에 따라 양성 / 음성이라고 주장하면 y = A / (A + C), x = B / (B + D). 모두 양수라고 말하면 y = 1 및 x = 1입니다.

좌표가 (0,0) (A / (A + C), B / (B +) 인 세 점을 기준으로합니다. D)) (1,1), ((y, x) 순서로) 삼각형 면적 공식을 사용하여 곡선 아래 면적을 쉽게 계산할 수 있습니다.

최종 결과 : 면적 = $ \ frac {AB + 2AD + 2CD} {(A + C) (B + D)} $ ? 확인이 필요합니다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다