재현율보다 정밀도가 더 중요한 경우는 언제입니까?

누구나 정확성이 중요한 예와 회상이 중요한 예를 들어 줄 수 있나요?

댓글

  • f1- 점수는 갈 길입니다, 친구
  • 두 사람 사이에 더 중요한 것보다 ' 하나를 최대화하고 싶은 경우가 무엇인지 물어 봅니다 (' 반드시 다른 것을 " 덜

    중요).

답변

  • 희귀 암 데이터의 경우 거짓 음성을 설명하지 않는 모델링은 범죄입니다. 재현율 는 정밀도보다 더 나은 척도입니다.

li>

  • YouTube 추천의 경우 거짓 음성은 문제가되지 않습니다. 정밀도 가 더 좋습니다.
  • 댓글

    • @fate h 주요 차이점은 FP와 FN입니다. YouTube 추천은 ' FN에 중점을 두지 않지만 병원 임상 결정은 필수입니다.

    답변

    리콜이 더 중요한 실제 사례를 알려 드릴 수 있습니다.

    매주 수천 명의 무료 고객이 웹 사이트에 등록하고 있습니다. 콜센터 팀은 모두 전화를 걸고 싶지만 불가능하기 때문에 구매자가 될 가능성이 높은 사람들을 선택해달라고 요청합니다 (높은 온도는 우리가 참조하는 방식입니다). 우리는 사지 않을 사람을 부르는 것을 신경 쓰지 않습니다 (정밀도는 중요하지 않습니다). 그러나 우리에게는 고온을 가진 모든 사람들이 항상 내 선택에 있으므로 사지 않고 가지 않는 것이 매우 중요합니다. 즉, 정밀도가 지옥에가더라도 내 모델은 높은 재현율 이 필요합니다.

    도움이 되었기를 바랍니다. Miguel.

    Answer

    일부 상황에서는 재현율이 정밀도보다 더 중요 할 수 있지만 (또는 그 반대의 경우도 가능) 더 해석 가능한 평가를 받으려면 둘 다 필요합니다.

    예를 들어 의료계에서 @SmallChess가 언급 한 것처럼 , 위음성은 일반적으로 예비 진단의 위양성보다 더 비참합니다. 따라서 회상이 더 중요한 측정이라고 생각할 수 있습니다. 그러나 100 % 재현율을 가지면서도 쓸모없는 모델을 가질 수 있습니다. 모델이 항상 긍정적 인 예측을 출력하면 100 % 재현율은 있지만 전혀 정보가 없습니다.

    이것이 여러 측정 항목을 살펴 보는 이유입니다.

    와 같은 측정 항목 답변

    더 중요한 것은 각 오류의 비용에 따라 다릅니다.

    정밀도에는 직접 비용이 포함되는 경향이 있습니다. 오탐이 많을수록 참 양성 당 더 많은 비용이 발생합니다. 비용이 낮다면 정밀도는 그다지 중요하지 않습니다. 예를 들어 이메일 주소가 100 만 개이고 모든 주소에게 이메일을 보내는 데 10 달러가 든다면 시도 할 시간이 없을 것입니다. 응답 할 가능성이 가장 높은 사람들을 모두 확인하십시오.

    다른 한편 회상은 기회 비용을 포함하는 경향이 있습니다. 거짓 음성이 나올 때마다 기회를 포기하는 것입니다. 따라서 추가 정확한 식별의 한계 값이 작을 때 회상은 가장 중요하지 않습니다. 기회가 여러 개 있고 그 사이에 차이가 거의 없으며 제한된 수만 추구 할 수 있습니다. 예를 들어 사과를 사고 싶다고 가정 해 보겠습니다. 가게에 사과가 100 개 있는데 그 중 10 개가 나쁘다. 좋은 사과의 80 %를 놓친 나쁜 사과를 구별하는 방법이 있다면 약 18 개의 좋은 사과를 식별 할 수 있습니다. 일반적으로 20 %의 리콜은 끔찍하지만 5 개의 사과 만 원한다면 나머지 72 개의 사과를 놓치는 것은 중요하지 않습니다.

    따라서 다음과 같은 경우에 가장 중요합니다.

    -기회의 수가 적습니다 (좋은 사과가 10 개만 있었다면 회상 률이 20 %에 불과한 좋은 사과 5 개를 찾을 수 없을 것입니다)
    -기회간에 상당한 차이가 있습니다 (일부 사과가 다른 사과보다 낫다면 20 %의 회상 률로 5 개의 좋은 사과를 얻을 수 있지만 반드시 최고 사과가 될 수는 없습니다.
    또는
    -The 많은 기회에 대해서도 기회의 한계 이익은 여전히 높습니다. 예를 들어, 대부분의 쇼핑객은 18 개 이상의 좋은 사과로부터 많은 이익을 얻지 못하지만 매장 에서는 판매 할 사과를 18 개 이상 갖고 싶어합니다.

    따라서 정밀도는 행동 비용은 높지만 행동하지 않는 비용은 낮을 때를 상기하는 것보다 더 중요합니다.이것은 “아무 조치도 취하지 않는 비용”대 “아무 조치도 취하지 않는 데 드는 비용”이 아니라 후보자 당 행동 / 비 행동 비용입니다. 사과의 예에서 특정 사과를 사거나 사지 않는 비용은 사과를 사지 않는 비용이 아니라 사과를 사지 않는 비용이 아닙니다. 특정 사과를 사지 않는 비용은 다른 사과. 불량 사과를 사는 비용은 높지만 특정 좋은 사과를 전달하는 비용이 낮기 때문에이 예에서는 정밀도가 더 중요합니다. 또 다른 예로는 “유사한 후보자가 많을 때 채용 할 수 있습니다.

    행동 비용은 낮지 만 후보를 통과하는 기회 비용이 높을 때 재현율이 정밀도보다 중요합니다. 앞서 언급 한 스팸 사례가 있습니다 (이메일 주소를 놓치는 비용은 높지 않지만 응답하지 않는 사람에게 이메일을 보내는 비용은 더 낮음). 독감 예방 주사 후보자 : 독감 예방 주사를 필요로하지 않는 사람에게 주며 몇 달러의 비용이 들지만 필요로하는 사람에게는주지 마십시오. 그러면 그들은 죽을 수 있습니다.이 때문에 건강 관리 계획 일반적으로 정확성을 완전히 무시하고 모든 사람에게 독감 예방 주사를 제공합니다.

    답변

    누적 은 재현율보다 정밀도의 중요성을 설명하는 더 많은 예를 제시 할 수있는 방법에 대한 훌륭한 답변을 제공하며 그 반대의 경우도 마찬가지입니다.

    대부분의 다른 답변은 중요성에 대한 설득력있는 사례를 만듭니다. 정밀도의 중요성에 대한 예를 들어 보겠다고 생각했습니다. 이것은 완전히 가설적인 예이지만 사실입니다.

    날씨를 기반으로 특정 날이 위성을 발사하기에 좋은 날인지 아닌지를 예측하기 위해 머신 러닝 모델이 만들어 졌다고 가정 해 보겠습니다.

    • 모델이 인공위성을 발사하기에 좋은 날이 나쁘다고 우연히 예측 한 경우 ( 거짓 부정 ) 출시 기회를 놓치고 있습니다. 이것은 그렇게 큰 문제가 아닙니다.

    • 그러나 모델이 좋은 날이라고 예측하지만 실제로 위성을 발사하기에는 나쁜 날인 경우 ( 거짓 양성 ) 위성이 파괴 될 수 있으며 피해 비용은 수십억에 달합니다.

    회상보다 정밀도가 더 중요한 경우.

    답변

    정밀도와 회상의 차이를 기억하는 데 어려움을 겪었습니다. 이 니모닉을 생각해 낼 때까지 :

    reCALL이 CALL 센터에 있으므로 임신 테스트가 정확합니다.

    임신 테스트를 통해 테스트 제조업체는 양성 결과가 여성이 실제로 임신했음을 의미하는지 확인해야합니다. 사람들은 갑자기 결혼하거나 집을 사서 양성 테스트에 반응 할 수 있습니다 (많은 소비자가 아무 이유없이 오 탐지하고 막대한 비용을 겪는다면 테스트 제조업체는 고객이 부족할 것입니다). 한 번은 위음성 임신 검사를 받았는데, 제가 임신 한 사실을 알기까지 몇 주가 더 걸렸다는 뜻입니다. 결국 진실은 확연 해졌습니다. (Pun이 의도했습니다.)

    이제 보험 청구를위한 콜센터를 상상해보십시오. 대부분의 사기 청구는 월요일에 전화를 겁니다. 사기꾼이 공동 작업자와 연락하여 주말 동안 꾸민 이야기 ( “차가 도난 당했다고 말하자”)를 작성합니다. 보험 회사가 할 수있는 최선의 방법은 무엇입니까? 월요일에? 정확도보다 회상을 선호하도록 조정해야 할 수도 있습니다. 일부 사기를 놓치고 절대 지불하지 말았어야 할 현금을 지불하는 것보다 추가 조사를 위해 더 많은 클레임을 긍정적 (사기 가능성이 있음)으로 표시하는 것이 훨씬 낫습니다. 거짓 긍정 (사기 가능성이있는 것으로 추가 조사를 위해 표시되었지만 고객 손실이 실제 이었음)은 경찰 보고서를 주장하고 건물 보안 비디오를 요청할 수있는 숙련 된 조정자를 지정하여 해결할 수 있습니다. 거짓 부정 (수락) 사기꾼의 허위 청구 및 현금 지급)은 보험 회사에 대한 순수한 손실이며 더 많은 사기를 조장합니다.

    F1은 훌륭하지만 테스트 / 예측이 어떻게 사용 될지 이해하는 것이 정말 중요합니다. 항상 틀릴 위험이 있습니다. 틀릴 경우 그 결과가 얼마나 심각한 지 알고 싶습니다.

    답변

    이메일 스팸 감지 : 정밀 재현율 보다 더 중요합니다.

    간단 요약 :

    • 정밀도 : 긍정적 인 것을 예측할 때 실제로 긍정적 인 횟수를 알려줍니다.반면

    • 재현율 : 이것은 실제 긍정적 인 데이터를 알려줍니다. 정확하게 예측 한 횟수입니다.

    위에서 말했듯이 스팸 이메일 감지의 경우 스팸 이메일 (양성 사례)이 감지되지 않고 그대로 남아도 괜찮을 것입니다. ” t 스팸 폴더 로 이동하지만 이메일이 좋은 경우 (부정적인 경우) 스팸 폴더로 이동하지 마십시오. ie 정확도가 더 중요합니다. (모델이 긍정적 인 것을 예측하는 경우 (예 : 스팸) 스팸이 더 좋습니다. 그렇지 않으면 중요한 이메일을 놓칠 수 있습니다).

    명확하게 알려주기를 바랍니다.

    답변

    언제 클래스가 불균형하고 높은 참 양성이 필요합니다. 정확도가 재현보다 더 선호됩니다. 정밀도는 공식에 거짓 음성이 없기 때문에 영향을 미칠 수 있습니다.

    Answer

    다음은 제가 취한 간단한 예입니다. Aurelion Geron의 저서, Scikit-Learn 및 Tensorflow를 사용한 Hands-on Machine Learning에서 발췌했습니다. 자녀를위한 웹 사이트 차단기가 “안전한”웹 사이트 만 표시되도록 허용하고 싶다고 가정 해보십시오.

    이 경우 “안전한”웹 사이트가 긍정적 인 클래스입니다. 여기서는 일부 안전한 웹 사이트가 부정적이거나 안전하지 않은 클래스의 일부로 예측되어 결과적으로 차단 된 경우에도 차단기가 웹 사이트가 안전하다는 것을 절대적으로 확신하기를 원합니다. 즉, 리콜을 희생하면서 높은 정밀도를 원합니다.

    안전 위험이 긍정 등급 인 공항 보안의 경우 모든 잠재적 안전 위험을 조사하고 싶습니다. 이 경우 정밀도를 희생하면서 높은 회수율을 갖게됩니다 (안전 위험이없는 많은 가방이 조사 될 것입니다).

    답글 남기기

    이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다