Interpretazione dellarea sotto la curva PR

Attualmente sto confrontando tre metodi e ho le metriche Accuracy, auROC e auPR. E ho quanto segue risultati:

Metodo A – acc: 0.75, auROC: 0.75, auPR: 0.45

Metodo B – acc: 0.65, auROC: 0.55, auPR: 0.40

Metodo C – acc: 0.55, auROC: 0.70, auPR: 0.65

Ho una buona conoscenza di accuratezza e auROC (per ricordare bene spesso cerco di inventare una frase come “auROC = caratterizza il capacità di predire bene la classe positiva “, anche se non esattamente corretta mi aiuta a ricordare). Non ho mai avuto dati auPR prima e mentre capisco come sono costruiti non riesco a” percepirli “.

In effetti non riesco a capire perché il metodo C abbia un punteggio incredibilmente alto per auPR pur essendo cattivo / medio per laccuratezza e auPR.

Se qualcuno potesse aiutarmi a capirlo un un po meglio con una semplice spiegazione che sarebbe davvero eccezionale. Grazie.

Risposta

Un asse delle curve ROC e PR è lo stesso, cioè TPR: quanti casi positivi sono stati classificati correttamente di tutti i casi positivi nei dati.

Laltro asse è diverso. ROC utilizza FPR, che è il numero di positivi dichiarati erroneamente tra tutti i negativi nei dati. La curva PR utilizza la precisione: quanti veri positivi tra tutti quelli che sono stati previsti come positivi. Quindi la base del secondo asse è diversa. ROC utilizza ciò che è nei dati, PR utilizza ciò che è nella previsione come base.

Si ritiene che la curva PR sia più informativa quando cè uno squilibrio di alta classe nei dati, vedere questo documento http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Commenti

  • Per auROC 0,5 è il minimo (perché meno sarebbe meglio invertendo la previsione). Esistono regole simili con lauPR? Anche riguardo alle mie misurazioni: cosa potrei affermare guardando i punteggi del Metodo C? Poiché ' lavoro con lo stesso set di dati nei 3 casi e dal mio punto di vista per un set di dati con una distribuzione più o meno uniforme tra le classi, non ' Non ha senso che auROC e auPR non seguano la stessa classifica per i miei metodi.
  • qual è il punteggio del classificatore casuale in auPR? So che ' è 0,5 in auROC ma non sono in grado di saperlo in auPR.
  • Il punteggio auPR previsto per un classificatore casuale è solo la proporzione del vero positivo casi nel set di dati. Questa è la precisione che ti aspetteresti se dovessi indovinare la classe e otterrai quella precisione per tutti i livelli di richiamo. Quindi la curva PR attesa per un classificatore casuale è solo un rettangolo con lunghezze laterali " proporzione di veri positivi " x 1. Ad esempio, se il tuo set di dati contiene il 10% di casi positivi e il 90% di casi negativi, lauPR previsto per la probabilità è 0,1.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *