Interpretación del área bajo la curva PR

Actualmente estoy comparando tres métodos y tengo la Precisión, auROC y auPR como métricas. Y tengo lo siguiente resultados:

Método A – acc: 0,75, auROC: 0,75, auPR: 0,45

Método B – acc: 0,65, auROC: 0,55, auPR: 0,40

Método C – acc: 0.55, auROC: 0.70, auPR: 0.65

Tengo una buena comprensión de la precisión y auROC (para recordar, a menudo trato de encontrar una oración como «auROC = caracterizar el capacidad para predecir bien la clase positiva «, aunque no es exactamente correcta, me ayuda a recordar). Nunca antes había tenido datos auPR y, aunque entiendo cómo se construyen, no puedo» sentirme «detrás de ellos.

De hecho, no entiendo por qué el método C tiene una puntuación increíblemente alta para auPR mientras que es malo / promedio para la precisión y auPR.

Si alguien pudiera ayudarme a entenderlo un un poco mejor con una explicación simple que sería realmente genial. Gracias.

Respuesta

Un eje de las curvas ROC y PR es el mismo, es decir, TPR: cuántos casos positivos se han clasificado correctamente de todos los casos positivos en los datos.

El otro eje es diferente. ROC usa FPR, que es la cantidad de positivos declarados erróneamente de todos los negativos en los datos. La curva PR utiliza precisión: cuántos verdaderos positivos de todos los que se han predicho como positivos. Entonces la base del segundo eje es diferente. ROC usa lo que hay en los datos, PR usa lo que está en la predicción como base.

Se cree que la curva PR es más informativa cuando hay un desequilibrio de clase alto en los datos; consulte este artículo http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Comentarios

  • Para auROC 0.5 es el mínimo (porque menos sería mejor invirtiendo la predicción). ¿Existen reglas similares con la auPR? También con respecto a mis medidas: ¿qué podría afirmar mirando los puntajes del Método C? Debido a que ' estoy trabajando con el mismo conjunto de datos en los 3 casos y, desde mi punto de vista, para un conjunto de datos con una distribución más o menos uniforme entre las clases, no ' No tiene sentido que auROC y auPR no sigan la misma clasificación para mis métodos.
  • ¿Cuál es la puntuación del clasificador aleatorio en auPR? Lo sé ' s 0.5 en auROC pero no puedo saberlo en auPR.
  • La puntuación de auPR esperada para un clasificador aleatorio es solo la proporción de verdadero positivo casos en el conjunto de datos. Esa es la precisión que esperaría si tuviera que adivinar la clase, y obtendría esa precisión para todos los niveles de memoria. Por lo tanto, la curva PR esperada para un clasificador aleatorio es solo un rectángulo con longitudes laterales " proporción de verdaderos positivos " x 1. Por ejemplo, si su conjunto de datos contiene un 10% de casos positivos y un 90% de casos negativos, el auPR esperado bajo probabilidad es 0.1.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *