Mikä on kaava ROC-käyrän alla olevan alueen laskemiseksi varautumistaulukosta?

Esimerkiksi, jos taulukoni on:

 True Value (gold standard) Positive | Negative | | | | | Test | Pos | A | B | Result | | | | | Neg | C | D | | | | | 

kommentit

  • Minulle ' ei ole selvää, että tähän kysymykseen voi olla hyödyllinen vastaus. Vastaanottimen toimintakäyrä (ROC) käyrä edustaa vaihteluväliä tosi-positiivisen ja väärän positiivisen luokitusten välillä, koska yksi muuttaa kynnystä valinnan tekemiseen mallista. Varautumataulukko edustaa luokittelutuloksia kyseisen kynnyksen tietyllä valinnalla . Voidaan kenties laskea jotain alueen kaltaista (kuten yksi ehdotettu vastaus tässä tekee), mutta ' ei ole selvää, mikä edustaisi koko mallin ROC-käyrän alla olevaa aluetta .
  • Jos ennustajasi on kaksisuuntainen ja siksi on vain yksi kynnysarvo, mielestäni AUC tarjoaa edelleen (joitain) hyödyllisiä tietoja.
  • @JeremyMiles antakaa ei-triviaali esimerkki ennustaja, jossa on vain yksi kynnys.
  • @PavelTyshevskyi – varma. (Unohdan, mikä asiayhteys tähän kysymykseen oli). Työskentelen arvioijien kanssa, jotka luokittelevat mainoksia. Yksi esimerkki on pornografia (mikä on huono). Kysymme arvioijilta " Onko tämä mainos pornografiaa varten? " He sanovat kyllä vai ei.

vastaus

Yleistapauksessa: voit ”t

ROC-käyrä näyttää kuinka herkkyys ja spesifisyys vaihtelevat kaikki mahdolliset kynnysarvot . Ehdollisuustaulukko on laskettu yhdellä kynnyksellä ja tiedot muista kynnyksistä on menetetty. Siksi et voi laskea ROC-käyrää näistä yhteenvetotiedoista.

Mutta minun luokittelija on binaarinen, joten minulla on yksi ainoa kynnys

Binaariset luokittelijat eivät todellakaan ole binäärejä. Vaikka ne saattavatkin paljastaa vain lopullisen binäärisen päätöksen, kaikki tuntemani luokittelijat luottavat johonkin kvantitatiiviseen estimaattiin.

  • Binaarinen päätöspuu? Yritä rakentaa regressiopuu.
  • Luokittelija SVM? Tee tukivektorin regressio.
  • Logistinen regressio? Hanki pääsy raakatodennäköisyyksiin.
  • Hermoverkko? Käytä t: n numeerista lähtöä hän on viimeinen kerros sen sijaan.

Tämä antaa sinulle enemmän vapautta valita optimaalisen kynnyksen saadaksesi parhaan mahdollisen luokituksen tarpeisiisi.

Mutta haluan

Sinun ei todellakaan pitäisi. ROC-käyrät, joilla on muutama kynnysarvo, aliarvioivat merkittävästi käyrän alla olevan todellisen alueen (1). ROC-käyrä, jossa on yksi piste, on pahimmassa tilanteessa, ja vertailu jatkuvaan luokittelijaan on epätarkka ja harhaanjohtava.

Anna minulle vain vastaus!

Ok, ok , sinä voitat. Yhdellä pisteellä AUC: tä voidaan pitää kahden kolmion T ja U summana:

ROC-käyrä yksi (SP, SE) pari ja kaksi kolmiota

Voimme saada niiden alueet varautumistaulukon (A, B, C ja D kuten määritit) perusteella:

$$ \ begin {tasaa *} T = \ frac {1 \ kertaa SE} {2} & = \ frac {SE} {2} = \ frac {A} {2 (A + C)} \\ U = \ frac {SP \ kertaa 1} {2} & = \ frac {SP} {2} = \ frac {D} {2 (B + D)} \ end {tasaa *} $$

AUC: n saaminen: $$ \ begin {tasaus *} AUC & = T + U \\ & = \ frac {A} {2 (A + C)} + \ frac {D} {2 (B + D)} \\ & = \ frac {SE + SP} {2} \ end { tasaa *} $$

Lopuksi

Voit laskea teknisesti binääriluokittelijan ROC AUC: n sekaannusmatriisista. Mutta siltä varalta, että minua ei ollut selvä, haluan toistaa viimeisen kerran: ÄLÄ TEE SITÄ!

Viitteet

(1) DeLong ER, DeLong DM, Clarke-Pearson DL: Kahden tai useamman korreloivan vastaanottimen toimintakäyrän alla olevien alueiden vertaaminen: Ei-parametrinen lähestymistapa. Biometrics 1988, 44: 837-845. https://www.jstor.org/stable/2531595

Kommentit

  • Tämä esimerkki yhdellä pisteellä voi olla todella harhaanjohtava. Esimerkiksi jos piste on (1, 0), saadaan AUC = 1 laskelmien mukaan. Pisteen alla oleva alue on aina nolla. Jos sinun on todella tehtävä yhteenveto varautumistaulukosta, käytä f1-pisteitä tai tietoisuutta.
  • @PavelTyshevskyi ROC-käyrä on aina käyrä, ei koskaan yksittäinen piste. Muista, että se osoittaa 1-spesifisyyden, mikä todennäköisesti hämmentää sinua.
  • Tarkoitan @PavelTyshevskyi (1, 0) 0 spesifisyyden 0 herkkyyttä, joten AUC on 0 odotetusti.
  • Olet ' oikeassa, olen ' sekoittunut akseliin. Se ei silti ' kuulosta oikein, kun (0, 0) ja (1, 1) käytetään jotenkin rakentamaan alue yhdessä varautumismatriisista peräisin olevan se, sp: n kanssa. Kiitos selvennyksestä.
  • @PavelTyshevskyi voitko olla hieman tarkempi? Vastaus on oikea, ja mielestäni huomautan selvästi, miksi sinun ei pitäisi tehdä sitä ensin. Mutta vakuutan teille, että se on aivan oikein.

Vastaa

Kun väitän, että ne kaikki ovat negatiivisia, sitten herkkyys (y) = 0, 1 – spesifisyys (x) = 0. Jos väitän positiivisen / negatiivisen testitulosten perusteella, niin y = A / (A + C), x = B / (B + D). Kun sanon, että ne kaikki ovat positiivisia, y = 1 ja x = 1.

Perustuu kolmeen pisteeseen koordinaatilla (0,0) (A / (A + C), B / (B + D)) (1,1), ((y, x) -järjestyksessä), käyrän alla oleva alue on helppo laskea käyttämällä kolmion pinta-alan kaavaa.

Lopputulos: Area = $ \ frac {AB + 2AD + 2CD} {(A + C) (B + D)} $ ? On vahvistettava.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *