PR-käyrän alla olevan alueen tulkinta

Vertailen tällä hetkellä kolmea menetelmää ja tarkkuuden, auROC: n ja auPR: n mittareina. Ja minulla on seuraava tulokset:

Menetelmä A – acc: 0,75, auROC: 0,75, auPR: 0,45

Menetelmä B – acc: 0,65, auROC: 0,55, auPR: 0,40

Menetelmä C – acc: 0,55, auROC: 0,70, auPR: 0,65

Minulla on hyvä käsitys tarkkuudesta ja auROC: sta (muistaakseni hyvin yritän usein tuottaa lauseen, kuten ”auROC = luonnehtivat kyky ennustaa positiivinen luokka hyvin ”, vaikka se ei olekaan oikein, se auttaa minua muistamaan). Minulla ei ole koskaan ollut auPR-tietoja aikaisemmin, ja vaikka ymmärrän, miten se on rakennettu, en voi” saada ”sen taustaa.

Itse en ymmärrä, miksi menetelmällä C on uskomattoman korkea pisteet auPR: lle samalla, kun se on huono / keskimääräinen tarkkuuden ja auPR: n suhteen.

Jos joku voisi auttaa minua ymmärtämään vähän parempi yksinkertaisella selityksellä, joka olisi todella hienoa. Kiitos.

vastaus

Yksi ROC- ja PR-käyrien akseli on sama, eli TPR: kuinka monta positiivista tapausta on luokiteltu oikein kaikista positiivisista tapauksista.

Toinen akseli on erilainen. ROC käyttää FPR: ää, mikä on kuinka monta virheellisesti ilmoitettua positiivista kaikista negatiivisista tiedoissa. PR-käyrä käyttää tarkkuutta: kuinka monta todellista positiivista kaikista positiivisiksi ennustetuista. Joten toisen akselin pohja on erilainen. ROC käyttää datassa mitä ”, PR käyttää ennusteessa mitä” s.

PR-käyrän uskotaan olevan informatiivisempi, kun tiedoissa on korkea luokan epätasapaino, katso tämä artikkeli http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

kommentit

  • auROC: lle 0,5 on vähimmäismäärä (koska vähemmän olisi parempi kääntämällä ennakkoarvo). Onko olemassa samankaltaisia sääntöjä auPR: n kanssa? Koskee myös mittauksiani: mitä voisin väittää tarkastelemalla menetelmän C tuloksia? Koska olen ' m työskennellyt saman tietojoukon kanssa 3 tapauksessa ja minun näkökulmastani tietojoukolle, jonka jakauma on enemmän tai vähemmän tasainen luokkien välillä, se ei ' ei ole järkevää, että auROC ja auPR eivät noudata samaa luokitusta menetelmissäni.
  • mikä on satunnaisluokittelupiste auPR: ssä? Tiedän sen ' s 0,5 auROC: ssä, mutta en voi tietää auPR: stä.
  • Satunnaisluokittelijan odotettu auPR-piste on vain todellisten positiivisten osuus tapauksia. Se on täsmällisyys, jota voit odottaa, jos arvat luokan, ja saat sen tarkkuuden kaikilla muilla tasoilla. Joten satunnaisluokittelijan odotettu PR-käyrä on vain suorakulmio, jonka sivupituudet ovat " todellisten positiivisten osuudet " x 1. Esimerkiksi jos tietojoukko sisältää 10% positiivisia tapauksia ja 90% negatiivisia tapauksia, odotettavissa oleva auPR on 0,1.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *