Interpretace oblasti pod křivkou PR

Momentálně porovnávám tři metody a jako metriky mám Accuracy, auROC a auPR. A mám následující výsledky:

Metoda A – acc: 0,75, auROC: 0,75, auPR: 0,45

Metoda B – acc: 0,65, auROC: 0,55, auPR: 0,40

Metoda C – acc: 0,55, auROC: 0,70, auPR: 0,65

Dobře rozumím přesnosti a auROC (dobře si pamatuji, často se snažím vymyslet větu jako „auROC = charakterizovat Schopnost předvídat pozitivní třídu dobře „, i když není přesně správná, pomáhá mi pamatovat). Nikdy jsem neměl data auPR, a zatímco chápu, jak jsou sestavena,„ pocit „za sebou nedostanu.

Ve skutečnosti nechápu, proč má metoda C neuvěřitelně vysoké skóre pro auPR, přestože je špatná / průměrná pro přesnost a auPR.

Pokud mi někdo může pomoci porozumět trochu lépe s jednoduchým vysvětlením, které by bylo opravdu skvělé. Děkuji.

Odpověď

Jedna osa křivek ROC a PR je stejná, tj. TPR: kolik pozitivních případů bylo správně klasifikováno ze všech pozitivních případů v datech.

Druhá osa je jiná. ROC používá FPR, což je počet omylem deklarovaných pozitiv ze všech negativů v datech. Křivka PR používá přesnost: kolik skutečných pozitiv ze všech, které byly předpovězeny jako pozitiva. Základna druhé osy je tedy jiná. ROC používá to, co je v datech, PR používá to, co je v predikci jako základ.

Křivka PR je považována za informativní, pokud v datech existuje nerovnováha vysoké třídy, viz tento dokument http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Komentáře

  • Pro auROC je 0,5 minimum (protože obrácením predikce by bylo lepší méně). Existují nějaká podobná pravidla s auPR? Co se týče mých měření: co bych mohl tvrdit při pohledu na skóre metody C? Protože ' m pracuji se stejnou datovou sadou ve 3 případech a z mého pohledu pro datovou sadu s víceméně rovnoměrným rozdělením mezi třídy by to nebylo ' Nemá smysl, aby se auROC a auPR u mých metod nesledovaly stejné hodnocení.
  • jaké je skóre náhodného klasifikátoru v auPR? Vím, že ' s 0,5 v auROC, ale nemohu to vědět v auPR.
  • Očekávané skóre auPR pro náhodný klasifikátor je pouze podíl skutečně pozitivního případy v datové sadě. To je přesnost, kterou byste očekávali, kdybyste uhodli třídu, a tuto přesnost získáte pro všechny úrovně odvolání. Očekávaná křivka PR pro náhodný klasifikátor je tedy pouze obdélník s délkami stran " podíl skutečných pozitivů " x 1. Například pokud váš datový soubor obsahuje 10% pozitivních případů a 90% negativních případů, očekávaný náhodný auPR je 0,1.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *