Jaki jest wzór na obliczenie obszaru pod krzywą ROC z tabeli kontyngentów?

Na przykład, jeśli moja tabela to:

 True Value (gold standard) Positive | Negative | | | | | Test | Pos | A | B | Result | | | | | Neg | C | D | | | | | 

Komentarze

  • To ' nie jest dla mnie jasne, czy może istnieć użyteczna odpowiedź na to pytanie. Krzywa charakterystyki operacyjnej odbiornika (ROC) reprezentuje zakres kompromisów między klasyfikacjami prawdziwie dodatnimi i fałszywie dodatnimi, ponieważ zmienia się próg dokonywania wyboru z modelu. Tabela kontyngencji przedstawia wyniki klasyfikacji przy konkretnym wyborze tego progu. Można by obliczyć coś w rodzaju pola (tak jak w przypadku jednej z proponowanych tutaj odpowiedzi), ale ' nie jest jasne, czy rzeczywiście reprezentowałby obszar pod krzywą ROC dla pełnego modelu .
  • Jeśli twój predyktor jest dychotomiczny i dlatego jest tylko jeden próg, myślę, że AUC nadal dostarcza (niektórych) przydatnych informacji.
  • @JeremyMiles proszę podać nietrywialny przykład predyktor, w którym istnieje tylko jeden próg.
  • @PavelTyshevskyi – jasne. (Nie pamiętam, jaki był kontekst tego pytania). Współpracuję z oceniającymi, którzy klasyfikują reklamy. Jednym z przykładów jest pornografia (która jest zła). Pytamy osoby oceniające " Czy to reklama pornografii? " Mówią tak lub nie.

Odpowiedź

W ogólnym przypadku: możesz „t

Krzywa ROC pokazuje, jak zmienia się czułość i swoistość przy każdy możliwy próg . Tabela kontyngencji została obliczona dla jednego progu i informacje o innych progach zostały utracone. Dlatego nie można obliczyć krzywej ROC na podstawie tych podsumowanych danych.

Ale moje klasyfikator jest binarny, więc mam jeden próg.

Klasyfikatory binarne nie są tak naprawdę binarne. Mimo że mogą ujawniać tylko ostateczną decyzję binarną, wszystkie klasyfikatory, które znam, opierają się na jakimś oszacowaniu ilościowym pod maską.

  • Binarne drzewo decyzyjne? Spróbuj zbudować drzewo regresji.
  • Klasyfikator SVM? Czy regresja wektora pomocniczego.
  • Regresja logistyczna? Pobierz dostęp do surowych prawdopodobieństw.
  • Sieć neuronowa? Użyj numerycznego wyniku t zamiast tego ostatnia warstwa.

To da ci większą swobodę w wyborze optymalnego progu, aby uzyskać najlepszą możliwą klasyfikację dla twoich potrzeb.

Ale naprawdę chcę

Naprawdę nie powinieneś. Krzywe ROC z kilkoma progami znacznie zaniżają rzeczywistą powierzchnię pod krzywą (1). Krzywa ROC z pojedynczym punktem to najgorszy scenariusz, a każde porównanie z ciągłym klasyfikatorem będzie niedokładne i mylące.

Po prostu daj mi odpowiedź!

Ok, ok , wygrałeś. Za pomocą jednego punktu możemy uznać AUC za sumę dwóch trójkątów T i U:

Krzywa ROC z pojedyncza (SP, SE) para i dwa trójkąty

Możemy uzyskać ich obszary na podstawie tabeli kontyngencji (A, B, C i D, jak zdefiniowałeś):

$$ \ begin {align *} T = \ frac {1 \ times SE} {2} & = \ frac {SE} {2} = \ frac {A} {2 (A + C)} \\ U = \ frac {SP \ times 1} {2} & = \ frac {SP} {2} = \ frac {D} {2 (B + D)} \ end {align *} $$

Pobieranie AUC: $$ \ begin {align *} AUC & = T + U \\ & = \ frac {A} {2 (A + C)} + \ frac {D} {2 (B + D)} \\ & = \ frac {SE + SP} {2} \ end { align *} $$

Podsumowując

Technicznie można obliczyć ROC AUC dla klasyfikatora binarnego na podstawie macierzy nieporozumień. Ale na wszelki wypadek powtórzę po raz ostatni: NIE „NIE ROBIĆ!

Odnośniki

(1) DeLong ER, DeLong DM, Clarke-Pearson DL: Porównanie obszarów pod dwiema lub więcej skorelowanymi charakterystykami operacyjnymi odbiornika: podejście nieparametryczne. Biometrics 1988, 44: 837-845. https://www.jstor.org/stable/2531595

Komentarze

  • Ten przykład z jednym punktem może być naprawdę mylący. Na przykład posiadanie punktu w (1, 0) da AUC = 1 zgodnie z twoimi obliczeniami. Obszar pod punktem zawsze wynosi zero. Jeśli naprawdę potrzebujesz podsumować tabelę kontyngentów, użyj wyniku f1 lub informacji.
  • @PavelTyshevskyi Krzywa ROC jest zawsze krzywą, a nie pojedynczym punktem. Pamiętaj, że pokazuje specyficzność 1, co prawdopodobnie jest tym, co cię dezorientuje.
  • @PavelTyshevskyi Mam na myśli, że (1, 0) jest w rzeczywistości 0 specyficznością 0 czułością, więc AUC będzie wynosić 0 zgodnie z oczekiwaniami.
  • Masz ' dobrze, ' pomyliłem się z osią. Nadal nie ' nie brzmi dobrze, gdy (0, 0) i (1, 1) są używane do tworzenia obszaru razem z se, sp z macierzy kontyngencji. Dziękuję za wyjaśnienie.
  • @PavelTyshevskyi czy możesz być bardziej szczegółowy? Odpowiedź jest prawidłowa i myślę, że wyraźnie podkreślam, dlaczego w ogóle nie należy tego ' robić. Ale zapewniam, że jest to absolutnie poprawne.

Odpowiedź

Kiedy twierdzę, że wszystkie z nich są negatywne, wtedy czułość (y) = 0, 1 – specyficzność (x) = 0. Jeśli twierdzę, że wynik testu jest pozytywny / negatywny, to y = A / (A + C), x = B / (B + D). Kiedy mówię, że wszystkie są dodatnie, to y = 1 i x = 1.

Na podstawie trzech punktów o współrzędnych (0,0) (A / (A + C), B / (B + D)) (1,1) (w kolejności (y, x)) łatwo jest obliczyć pole powierzchni pod krzywą, korzystając ze wzoru na pole trójkąta.

Ostateczny wynik: Area = $ \ frac {AB + 2AD + 2CD} {(A + C) (B + D)} $ ? Muszą zostać zweryfikowane.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *