Interpretation des Bereichs unter der PR-Kurve

Ich vergleiche derzeit drei Methoden und habe die Genauigkeit, auROC und auPR als Metriken. Und ich habe die folgenden Ergebnisse:

Methode A – acc: 0,75, auROC: 0,75, auPR: 0,45

Methode B – acc: 0,65, auROC: 0,55, auPR: 0,40

Methode C – gem.: 0,55, auROC: 0,70, auPR: 0,65

Ich habe ein gutes Verständnis für Genauigkeit und auROC (um mich gut zu erinnern, versuche ich oft, einen Satz wie „auROC = charakterisiere das“ zu finden Die Fähigkeit, die positive Klasse gut vorherzusagen „, obwohl sie nicht genau korrekt ist, hilft mir, mich zu erinnern. Ich hatte noch nie zuvor auPR-Daten und obwohl ich verstehe, wie sie aufgebaut sind, kann ich das“ Gefühl „dahinter nicht bekommen.

Tatsächlich verstehe ich nicht, warum die Methode C eine unglaublich hohe Punktzahl für auPR hat, während sie für die Genauigkeit und auPR schlecht / durchschnittlich ist.

Wenn mir jemand helfen könnte, sie zu verstehen a wenig besser mit einer einfachen Erklärung, die wirklich toll wäre. Danke.

Antwort

Eine Achse der ROC- und PR-Kurven ist dieselbe, dh TPR: Wie viele positive Fälle wurden korrekt klassifiziert? von allen positiven Fällen in den Daten.

Die andere Achse ist anders. ROC verwendet FPR, dh wie viele falsch deklarierte Positive von allen Negativen in den Daten. PR-Kurve verwendet Präzision: Wie viele echte Positive von allen, die als Positive vorhergesagt wurden. Die Basis der zweiten Achse ist also anders. ROC verwendet das, was in den Daten enthalten ist, PR verwendet das, was in der Vorhersage enthalten ist, als Grundlage.

Die PR-Kurve wird als informativer angesehen, wenn die Daten ein hochklassiges Ungleichgewicht aufweisen. Siehe dieses Dokument http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf .

Kommentare

  • Für den auROC ist 0,5 das Minimum (weil weniger besser wäre, wenn die Vorhersage invertiert würde). Gibt es ähnliche Regeln für das auPR? Auch in Bezug auf meine Messungen: Was könnte ich behaupten, wenn ich mir die Ergebnisse der Methode C anschaue? Da ich ' in den drei Fällen mit demselben Datensatz arbeite und aus meiner Sicht für einen Datensatz mit mehr oder weniger gleichmäßiger Verteilung auf die Klassen nicht ' Es macht keinen Sinn, dass auROC und auPR für meine Methoden nicht dem gleichen Ranking folgen.
  • Wie hoch ist der zufällige Klassifikatorwert in auPR? Ich weiß, dass ' 0,5 in auROC ist, aber ich kann es in auPR nicht wissen.
  • Der erwartete auPR-Wert für einen zufälligen Klassifikator ist nur der Anteil des echten Positivs Fälle im Datensatz. Das ist die Genauigkeit, die Sie erwarten würden, wenn Sie die Klasse erraten würden, und Sie würden diese Genauigkeit für alle Rückrufebenen erhalten. Die erwartete PR-Kurve für einen Zufallsklassifizierer ist also nur ein Rechteck mit Seitenlängen " Anteil der echten Positiven " x 1. Zum Beispiel Wenn Ihr Datensatz 10% positive und 90% negative Fälle enthält, beträgt der erwartete zufällige auPR 0,1.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.