Mi a képlet a ROC görbe alatti terület kiszámításához egy kontingencia táblázatból?

Például, ha a táblám:

 True Value (gold standard) Positive | Negative | | | | | Test | Pos | A | B | Result | | | | | Neg | C | D | | | | | 

Megjegyzések

  • ' nem világos számomra, hogy hasznos válasz lehet erre a kérdésre. A vevő működési karakterisztikája (ROC) görbe a valódi-pozitív és a hamis-pozitív osztályozások közötti kompromisszumok tartományát reprezentálja, mivel ez megváltoztatja a választás küszöbét a modellből. A kontingenciatábla az osztályozási eredményeket jeleníti meg az adott küszöb adott választásánál . Lehet, hogy képes kiszámolni valami hasonló területet (ahogy az itt javasolt válasz), de nem egyértelmű, hogy ' nem világos, hogy ez valóban a teljes modell ROC görbe alatti területét képviselné-e. .
  • Ha a prediktora dichotóm, és ezért csak egy küszöb van, akkor úgy gondolom, hogy az AUC még mindig ad (néhány) hasznos információt.
  • @JeremyMiles kérjük, adjon meg nem triviális példát a következőkre: a prediktor, ahol csak egy küszöb létezik.
  • @PavelTyshevskyi – biztos. (Elfelejtem, mi volt ennek a kérdésnek a kontextusa). Olyan értékelőkkel dolgozom, akik osztályozzák a hirdetéseket. Az egyik példa a pornográfia (ami rossz). Megkérdezzük a minősítőket " Ez pornográf hirdetés? " Igent vagy nemet mondanak.

Válasz

Általános esetben: “t

A ROC görbe megmutatja, hogyan változik az érzékenység és a specifitás minden lehetséges küszöb et. Egy kontingenciatáblázat kiszámítása egyetlen küszöbértékkel történt, és a többi küszöbértékkel kapcsolatos információ elveszett. Ezért ezekből az összesített adatokból nem lehet kiszámítani a ROC görbét.

De osztályozó bináris, ezért egyetlen küszöböm van

A bináris osztályozók nem igazán binárisak. Annak ellenére, hogy csak végleges bináris döntést hozhatnak nyilvánosságra, az általam ismert összes osztályozó valamilyen kvantitatív becslésre támaszkodik.

  • Bináris döntési fa? Próbáljon meg egy regressziós fát építeni.
  • Osztályozó SVM? Tegyen egy támogató vektor regressziót.
  • Logisztikai regresszió? hozzáférés a nyers valószínűségekhez.
  • Ideghálózat? Használja a t numerikus kimenetét helyette az utolsó réteg.

Ez nagyobb szabadságot ad Önnek az optimális küszöb kiválasztásában, hogy az Ön igényeinek megfelelő lehető legjobb osztályozáshoz jusson.

Nem igazán szabad. A kevés küszöbértékű ROC görbék jelentősen alábecsülik a görbe alatti valódi területet (1). Az egyetlen ponttal rendelkező ROC görbe a legrosszabb eset, és a folytonos osztályozóval való összehasonlítás pontatlan és félrevezető lesz.

Csak válaszolj!

Ok, ok , Te nyertél. Egyetlen ponttal tekinthetjük az AUC-t két T és U háromszög összegének:

ROC görbe egyetlen (SP, SE) pár és két háromszög

Területeiket a kontingenciatáblázat (A, B, C és D alapján definiáltuk) alapján kaphatjuk meg:

$$ \ begin {align *} T = \ frac {1 \ szor SE} {2} & = \ frac {SE} {2} = \ frac {A} {2 (A + C)} \\ U = \ frac {SP \ szorzat 1} {2} & = \ frac {SP} {2} = \ frac {D} {2 (B + D)} \ end {align *} $$

Az AUC megszerzése: $$ \ begin {align *} AUC & = T + U \\ & = \ frac {A} {2 (A + C)} + \ frac {D} {2 (B + D)} \\ & = \ frac {SE + SP} {2} \ end { align *} $$

Befejezésül

Technikailag kiszámolhatja a bináris osztályozó ROC AUC-ját a zavaros mátrixból. De csak abban az esetben, ha nem lettem tiszta, hadd ismételjem meg még egyszer: NE Tegye!

Referenciák

(1) DeLong ER, DeLong DM, Clarke-Pearson DL: Két vagy több összefüggő vevő működési jelleggörbéjének területeinek összehasonlítása: Nem paraméteres megközelítés. Biometrics 1988,44: 837-845. https://www.jstor.org/stable/2531595

Megjegyzések

  • Ez a példa egyetlen ponttal valóban félrevezető lehet. Például, ha az (1, 0) pont van, akkor a számításai szerint AUC = 1 lesz. A pont alatti terület mindig nulla. Ha valóban összefoglalnod kell a vésztáblázatot, használd az f1 pontszámot vagy a tájékozottságot.
  • @PavelTyshevskyi A ROC görbe mindig görbe, soha nem egyetlen pont. Ne feledje, hogy 1-specifitást mutat, ami valószínűleg megzavarja.
  • @PavelTyshevskyi Úgy értem (1, 0) valójában 0 specificitás 0 érzékenység, tehát az AUC a vártnak megfelelően 0 lesz.
  • Ön ' igazad van, én ' összekevertem a tengellyel. Még mindig nem ' hangzik jól, ha (0, 0) és (1, 1) valamilyen módon a terület, se, sp a kontingencia mátrixból együtt építéséhez használatos. Köszönet a tisztázásért.
  • @PavelTyshevskyi tudnál egy kicsit konkrétabb lenni? A válasz helyes, és azt hiszem, világosan rámutatok arra, hogy miért nem szabad ' tenned. De biztosíthatom önöket, hogy ez teljesen helyes.

Válasz

Amikor azt állítom, hogy mindegyik negatív, akkor érzékenység (y) = 0, 1 – specificitás (x) = 0. Ha a pozitív / negatív eredményt állítom a vizsgálati eredmények alapján, akkor y = A / (A + C), x = B / (B + D). Amikor azt mondom, hogy mindegyikük pozitív, akkor y = 1 és x = 1.

Három pont alapján (0,0) (A / (A + C), B / (B +) D)) (1,1), ((y, x) sorrendben), a háromszög területének képletével könnyen kiszámítható a görbe alatti terület.

Végeredmény: Area = $ \ frac {AB + 2AD + 2CD} {(A + C) (B + D)} $ ? Ellenőrizni kell.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük