Interprétation de laire sous la courbe PR

Je « m compare actuellement trois méthodes et jai la précision, auROC et auPR comme métriques. Et jai ce qui suit résultats:

Méthode A – acc: 0.75, auROC: 0.75, auPR: 0.45

Méthode B – acc: 0.65, auROC: 0.55, auPR: 0.40

Méthode C – acc: 0.55, auROC: 0.70, auPR: 0.65

Jai une bonne compréhension de la précision et dauROC (pour bien me souvenir, jessaie souvent de trouver une phrase comme « auROC = caractérise le capacité à bien prédire la classe positive « , bien que ce ne soit pas exactement correct, cela maide à me souvenir). Je nai jamais eu de données auPR avant et bien que je comprenne comment il est construit, je ne peux » pas avoir le « sentiment » derrière.

En fait, je ne comprends pas pourquoi la méthode C a un score incroyablement élevé pour auPR tout en étant mauvais / moyen pour la précision et auPR.

Si quelquun pouvait maider à le comprendre a guère mieux avec une explication simple qui serait vraiment géniale. Merci.

Réponse

Un axe des courbes ROC et PR est le même, cest-à-dire TPR: combien de cas positifs ont été classés correctement sur tous les cas positifs dans les données.

Lautre axe est différent. ROC utilise FPR, qui correspond au nombre de positifs déclarés par erreur parmi tous les négatifs dans les données. La courbe PR utilise la précision: combien de vrais positifs parmi tous ceux qui ont été prédits comme positifs. La base du deuxième axe est donc différente. ROC utilise ce qui est dans les données, PR utilise ce qui est dans la prédiction comme base.

La courbe PR est considérée comme plus informative lorsquil y a un déséquilibre de grande classe dans les données, voir ce document http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Commentaires

  • Pour lauROC 0.5 est le minimum (car moins serait mieux en inversant la prédicition). Existe-t-il des règles similaires avec lauPR? Concernant également mes mesures: que pourrais-je affirmer en regardant les scores de la Méthode C? Parce que je ' je travaille avec le même jeu de données dans les 3 cas et de mon point de vue pour un jeu de données avec une distribution plus ou moins uniforme entre les classes, cela ne ' Il est logique que auROC et auPR ne suivent pas le même classement pour mes méthodes.
  • quel est le score du classificateur aléatoire dans auPR? Je sais que ' s 0.5 dans auROC mais je suis incapable de savoir dans auPR.
  • Le score auPR attendu pour un classificateur aléatoire est juste la proportion de vrai positif cas dans lensemble de données. Cest la précision à laquelle vous vous attendriez si vous deviez deviner la classe, et vous obtiendrez cette précision pour tous les niveaux de rappel. Ainsi, la courbe PR attendue pour un classificateur aléatoire est juste un rectangle avec des longueurs de côté " proportion de vrais positifs " x 1. Par exemple, si votre ensemble de données contient 10% de cas positifs et 90% de cas négatifs, le AUPR attendu sous chance est de 0,1.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *