Interpretarea ariei de sub curba PR

În prezent compar trei metode și am Accuracy, auROC și auPR ca metrică. Și am următoarele rezultate:

Metoda A – acc: 0.75, auROC: 0.75, auPR: 0.45

Metoda B – acc: 0.65, auROC: 0.55, auPR: 0.40

Metoda C – acc: 0,55, auROC: 0,70, auPR: 0,65

Am o bună înțelegere a preciziei și a auROC (pentru a ne aminti bine, încerc adesea să vin cu o propoziție de genul „auROC = caracterizează abilitatea de a prezice bine clasa pozitivă „, deși nu este exact corectă, mă ajută să-mi amintesc). Nu am mai avut niciodată date auPR și, în timp ce înțeleg cum sunt construite, nu pot obține” sentimentul „din spatele ei.

De fapt, nu reușesc să înțeleg de ce metoda C are un scor incredibil de mare pentru auPR, în timp ce este proastă / medie pentru acuratețe și auPR.

Dacă cineva mă poate ajuta să o înțeleg o puțin mai bine cu o explicație simplă care ar fi cu adevărat grozavă. Mulțumesc.

Răspuns

O axă a curbelor ROC și PR este aceeași, adică TPR: câte cazuri pozitive au fost clasificate corect din toate cazurile pozitive din date.

Cealaltă axă este diferită. ROC folosește FPR, care este numărul de declarații pozitive din greșeală din toate negativele din date. Curba PR utilizează precizia: câte pozitive adevărate din toate care au fost prezise ca pozitive. Deci baza celei de-a doua axe este diferită. ROC folosește ceea ce este în date, PR folosește ceea ce este în predicție ca bază.

Se consideră că curba PR este mai informativă atunci când există un dezechilibru de înaltă clasă în date, consultați această lucrare http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Comentarii

  • Pentru auROC 0.5 este minim (pentru că mai puțin ar fi mai bine prin inversarea predicției). Există unele reguli similare cu auPR? De asemenea, în ceea ce privește măsurătorile mele: ce aș putea afirma uitându-mă la scorurile Metodei C? Deoarece ' lucrez cu același set de date în cele 3 cazuri și din punctul meu de vedere pentru un set de date cu distribuție mai mult sau mai puțin uniformă între clase nu ar fi ' nu are sens că auROC și auPR nu urmează aceeași clasificare pentru metodele mele.
  • care este scorul clasificator aleatoriu în auPR? Știu că ' este 0,5 în auROC, dar nu pot să știu în auPR.
  • Scorul auPR așteptat pentru un clasificator aleator este doar proporția pozitiv adevărat cazuri din setul de date. Aceasta este precizia la care te-ai aștepta dacă ai ghici clasa și ai obține acea precizie pentru toate nivelurile de rechemare. Deci, curba PR așteptată pentru un clasificator aleatoriu este doar un dreptunghi cu lungimi laterale " proporție de pozitivi adevărați " x 1. De exemplu, dacă setul de date conține 10% cazuri pozitive și 90% cazuri negative, auPR așteptat sub șansă este 0,1.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *