Tolkning av området under PR-kurven

Jeg sammenligner for tiden tre metoder, og jeg har nøyaktighet, auROC og auPR som beregninger. Og jeg har følgende resultater:

Metode A – acc: 0,75, auROC: 0,75, auPR: 0,45

Metode B – acc: 0,65, auROC: 0,55, auPR: 0,40

Metode C – acc: 0.55, auROC: 0.70, auPR: 0.65

Jeg har god forståelse av nøyaktighet og auROC (for å huske godt prøver jeg ofte å komme med en setning som «auROC = karakterisere evne til å forutsi den positive klassen godt «, selv om det ikke er riktig, hjelper det meg å huske). Jeg har aldri hatt auPR-data før, og mens jeg forstår hvordan den er bygget, kan jeg ikke få» følelsen «bak den.

Jeg forstår faktisk ikke hvorfor metoden C har en utrolig høy score for auPR mens den er dårlig / gjennomsnittlig for nøyaktigheten og auPR.

Hvis noen kan hjelpe meg å forstå det en litt bedre med en enkel forklaring som ville vært veldig bra. Takk skal du ha.

Svar

En akse av ROC- og PR-kurver er den samme, det vil si TPR: hvor mange positive tilfeller som er klassifisert riktig ut av alle positive tilfeller i dataene.

Den andre aksen er annerledes. ROC bruker FPR, som er hvor mange feilaktig erklært positive ut av alle negative i dataene. PR-kurven bruker presisjon: hvor mange sanne positive av alt som er spådd som positivt. Så basen til den andre aksen er annerledes. ROC bruker det som er i dataene, PR bruker det som er i spådommen som grunnlag.

PR-kurven antas å være mer informativ når det er høy klasse ubalanse i dataene, se dette papiret http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Kommentarer

  • For auROC er 0,5 minimum (fordi mindre ville være bedre ved å invertere prediksjonsprosessen). Er det noen lignende regler med auPR? Også når det gjelder målingene mine: hva kan jeg hevde ved å se på resultatene til Metode C? Fordi jeg ' jobber med samme datasett i de tre tilfellene, og fra mitt synspunkt for et datasett med mer eller mindre jevn fordeling mellom klassene, ville det ikke ' Det er ikke fornuftig at AuROC og AuPR ikke følger samme rangering for metodene mine.
  • Hva er tilfeldig klassifiseringspoeng i AuPR? Jeg vet det ' s 0,5 i auROC, men jeg kan ikke vite i auPR.
  • Den forventede auPR-poengsummen for en tilfeldig klassifikator er bare andelen ekte positiv saker i datasettet. Det er presisjonen du forventer hvis du skulle gjette klassen, og du vil få den presisjonen for alle nivåer av tilbakekalling. Så den forventede PR-kurven for en tilfeldig klassifikator er bare et rektangel med sidelengder " andel av sanne positive " x 1. For eksempel, hvis datasettet ditt inneholder 10% positive tilfeller og 90% negative tilfeller, er forventet auPR under sjanse 0,1.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *