Fortolkning af området under PR-kurven

Jeg sammenligner i øjeblikket tre metoder, og jeg har nøjagtighed, auROC og auPR som målinger. Og jeg har følgende resultater:

Metode A – acc: 0,75, auROC: 0,75, auPR: 0,45

Metode B – acc: 0,65, auROC: 0,55, auPR: 0,40

Metode C – acc: 0.55, auROC: 0.70, auPR: 0.65

Jeg har en god forståelse af nøjagtighed og auROC (for at huske godt prøver jeg ofte at komme med en sætning som “auROC = karakterisere evne til at forudsige den positive klasse godt “, mens det ikke nøjagtigt er korrekt, hjælper det mig med at huske). Jeg har aldrig haft auPR-data før, og mens jeg forstår, hvordan de er bygget, kan jeg ikke få” følelsen “bag den.

Faktisk forstår jeg ikke, hvorfor metoden C har en utrolig høj score for auPR, mens den er dårlig / gennemsnitlig for nøjagtigheden og auPR.

Hvis nogen kunne hjælpe mig med at forstå det en lidt bedre med en simpel forklaring, der ville være rigtig god. Tak skal du have.

Svar

En akse af ROC- og PR-kurver er den samme, det vil sige TPR: hvor mange positive tilfælde er klassificeret korrekt ud af alle positive tilfælde i dataene.

Den anden akse er forskellig. ROC bruger FPR, hvilket er hvor mange fejlagtigt erklærede positive ud af alle negativer i dataene. PR-kurven bruger præcision: hvor mange sande positive ud af alt, hvad der er forudsagt som positivt. Så bunden af den anden akse er forskellig. ROC bruger hvad der er i dataene, PR bruger hvad der er i forudsigelsen som basis.

PR-kurve menes at være mere informativ, når der er en ubalance i høj klasse i dataene, se dette papir http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Kommentarer

  • For auROC er 0,5 minimum (fordi mindre ville være bedre ved at invertere forudsigelsen). Er der nogle lignende regler med auPR? Også vedrørende mine målinger: Hvad kan jeg hævde ved at se på scoringerne af metode C? Fordi jeg ' arbejder med det samme datasæt i de 3 tilfælde og fra mit synspunkt til et datasæt med mere eller mindre jævn fordeling mellem klasserne ville det ikke være ' giver ikke mening, at auROC og auPR ikke følger den samme placering for mine metoder.
  • hvad er den tilfældige klassificeringsscore i auPR? Jeg ved det ' s 0,5 i auROC, men jeg kan ikke vide det i auPR.
  • Den forventede auPR-score for en tilfældig klassifikator er bare andelen af ægte positiv sager i datasættet. Det er den præcision, du ville forvente, hvis du gætte klassen, og du ville få den præcision til alle niveauer for tilbagekaldelse. Så den forventede PR-kurve for en tilfældig klassifikator er bare et rektangel med sidelængder " andel af sande positive " x 1. For eksempel, hvis dit datasæt indeholder 10% positive sager og 90% negative sager, er den forventede auPR under tilfældighed 0,1.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *