Interpretacja obszaru pod krzywą PR

Obecnie porównuję trzy metody i mam dokładność, auROC i auPR jako metryki. Mam następujące dane wyniki:

Metoda A – acc: 0,75, auROC: 0,75, auPR: 0,45

Metoda B – acc: 0,65, auROC: 0,55, auPR: 0,40

Metoda C – acc: 0,55, auROC: 0,70, auPR: 0,65

Dobrze rozumiem dokładność i auROC (aby dobrze zapamiętać, często próbuję wymyślić zdanie typu „auROC = scharakteryzuj umiejętność dobrego przewidywania klasy pozytywnej, chociaż nie do końca poprawna, pomaga mi to zapamiętać). Nigdy wcześniej nie miałem danych auPR i chociaż rozumiem, jak są one zbudowane, nie mogę uzyskać „czucia” za nimi.

W rzeczywistości nie rozumiem, dlaczego metoda C ma niewiarygodnie wysoki wynik dla auPR, a jednocześnie jest zła / średnia pod względem dokładności i auPR.

Jeśli ktoś mógłby mi pomóc to zrozumieć, trochę lepiej z prostym wyjaśnieniem, które byłoby naprawdę świetne. Dziękuję Ci.

Odpowiedź

Jedna oś krzywych ROC i PR jest taka sama, czyli TPR: ile pozytywnych przypadków zostało poprawnie sklasyfikowanych ze wszystkich pozytywnych przypadków w danych.

Druga oś jest inna. ROC używa FPR, czyli liczby błędnie zadeklarowanych pozytywów spośród wszystkich negatywów w danych. Krzywa PR wykorzystuje precyzję: ile prawdziwych pozytywów spośród wszystkich przewidywanych jako pozytywne. Zatem podstawa drugiej osi jest inna. ROC wykorzystuje to, co jest w danych, PR używa tego, co jest w prognozie jako podstawie.

Uważa się, że krzywa PR dostarcza więcej informacji, gdy w danych występuje nierównowaga wysokiej klasy, patrz ten artykuł http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Komentarze

  • Dla auROC 0,5 jest minimum (ponieważ mniej byłoby lepiej, gdyby odwrócić predykcję). Czy istnieją podobne zasady z auPR? Również w odniesieniu do moich pomiarów: co mogę stwierdzić, patrząc na wyniki metody C? Ponieważ ' m pracuję z tym samym zbiorem danych w 3 przypadkach iz mojego punktu widzenia dla zbioru danych z mniej więcej równomiernym rozłożeniem na klasy, nie ' nie ma sensu, że auROC i auPR nie mają tego samego rankingu dla moich metod.
  • jaki jest losowy wynik klasyfikatora w auPR? Wiem, że ' s 0,5 w auROC, ale nie jestem w stanie tego określić w auPR.
  • Oczekiwany wynik auPR dla losowego klasyfikatora to tylko odsetek prawdziwych pozytywów przypadki w zbiorze danych. To jest precyzja, jakiej można by się spodziewać, gdybyś odgadł klasę, i uzyskałbyś tę precyzję na wszystkich poziomach przypominania. Zatem oczekiwana krzywa PR dla losowego klasyfikatora to tylko prostokąt o długościach boków " odsetek prawdziwych pozytywów " x 1. Na przykład: jeśli Twój zbiór danych zawiera 10% przypadków pozytywnych i 90% przypadków negatywnych, oczekiwana szansa auPR wynosi 0,1.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *