Tolkning av området under PR-kurvan

Jag jämför för närvarande tre metoder och jag har noggrannheten, auROC och auPR som mått. Och jag har följande resultat:

Metod A – acc: 0,75, auROC: 0,75, auPR: 0,45

Metod B – acc: 0,65, auROC: 0,55, auPR: 0,40

Metod C – acc: 0.55, auROC: 0.70, auPR: 0.65

Jag har en god förståelse för noggrannhet och auROC (för att komma ihåg bra försöker jag ofta komma med en mening som ”auROC = karakterisera förmåga att förutsäga den positiva klassen väl ”, medan det inte exakt är korrekt, det hjälper mig att komma ihåg). Jag har aldrig haft auPR-data förut och medan jag förstår hur den är byggd kan jag inte få” känslan ”bakom den.

Jag förstår faktiskt inte varför metoden C har en otroligt hög poäng för auPR samtidigt som den är dålig / genomsnittlig för noggrannheten och auPR.

Om någon kan hjälpa mig att förstå det en lite bättre med en enkel förklaring som skulle vara riktigt bra. Tack.

Svar

En axel för ROC- och PR-kurvor är densamma, det vill säga TPR: hur många positiva fall har klassificerats korrekt av alla positiva fall i uppgifterna.

Den andra axeln är annorlunda. ROC använder FPR, vilket är hur många felaktigt förklarade positiva av alla negativa uppgifter. PR-kurvan använder precision: hur många sanna positiva av allt som har förutspåtts som positivt. Så basen på den andra axeln är annorlunda. ROC använder vad som finns i data, PR använder vad som finns i förutsägelsen som bas.

PR-kurvan tros vara mer informativ när det finns en högklassig obalans i data, se detta dokument http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Kommentarer

  • För auROC är 0,5 minsta (eftersom mindre skulle vara bättre genom att vända predikitionen). Finns det några liknande regler med auPR? Även om mina mätningar: vad kan jag hävda genom att titta på poängen för metod C? Eftersom jag ' arbetar med samma dataset i de 3 fallen och ur min synvinkel för en dataset med mer eller mindre jämn fördelning mellan klasserna skulle det inte vara ' Det är inte meningsfullt att AuROC och AuPR inte följer samma ranking för mina metoder.
  • Vad är den slumpmässiga klassificeringspoängen i AuPR? Jag vet det ' s 0,5 i auROC men jag kan inte veta i auPR.
  • Den förväntade auPR-poängen för en slumpmässig klassificering är bara andelen sant positiv fall i datasetet. Det är den precision du kan förvänta dig om du skulle gissa klassen, och du skulle få den precisionen för alla nivåer av återkallelse. Så den förväntade PR-kurvan för en slumpmässig klassificering är bara en rektangel med sidolängder " andelen sanna positiva " x 1. Till exempel, om din dataset innehåller 10% positiva fall och 90% negativa fall är den förväntade auPR som en chans är 0,1.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *