Givet sanna positiva, falska negativa räntor, kan du beräkna falskt positiva, sanna negativa?

Jag har värden för True Positive (TP) och False Negative (FN) enligt följande:

TP = 0.25 FN = 0.75 

Från dessa värden kan vi beräkna False Positive (FP) och True Negative (TN)?

Svar

Det finns en hel del terminologisk förvirring inom detta område. Personligen tycker jag alltid att det är användbart att komma tillbaka till en förvirringsmatris för att tänka på detta. I ett klassificerings- / screeningtest kan du ha fyra olika situationer:

 Condition: A Not A Test says “A” True positive | False positive ---------------------------------- Test says “Not A” False negative | True negative 

I den här tabellen, ”true positive”, ”false negative”, ”false positive ”Och” sant negativt ”är händelser (eller deras sannolikhet). Vad du har är därför förmodligen en sann positiv frekvens och en falsk negativ frekvens . Skillnaden spelar roll eftersom den betonar att båda siffrorna har en täljare och en nämnare.

Där saker blir lite förvirrande är att du kan hitta flera definitioner av ”falskt positivt” och ”falskt negativt”, med olika nämnare.

Till exempel Wikipedia ger följande definitioner (de verkar ganska standard):

  • Verklig positiv frekvens (eller känslighet): $ TPR = TP / (TP + FN) $
  • Falsk positiv frekvens: $ FPR = FP / (FP + TN) $
  • True negativ frekvens (eller specificitet): $ TNR = TN / (FP + TN) $

I alla fall är nämnaren kolumnen totalt. Detta ger också en ledtråd för deras tolkning: Den verkliga positiva frekvensen är sannolikheten att testet säger ”A” när det verkliga värdet verkligen är A (dvs det är en villkorlig sannolikhet, förutsatt att A är sant). Detta säger inte hur sannolikt det är att du är korrekt när du ringer ”A” (dvs. sannolikheten för en sann positiv, förutsatt att testresultatet är ”A”).

Förutsatt att den falska negativa hastigheten definieras på samma sätt har vi sedan $ FNR = 1 – TPR $ (notera att dina siffror överensstämmer med detta). Vi kan emellertid inte direkt härleda den falskt positiva frekvensen från antingen de verkliga positiva eller falska negativa räntorna eftersom de inte ger någon information om specificiteten, dvs hur testet beter sig när ”inte A” är det rätta svaret. Svaret på din fråga skulle därför vara ”nej, det är inte möjligt” eftersom du inte har någon information i den högra kolumnen i förvirringsmatrisen.

Det finns dock andra definitioner i litteraturen. Till exempel, Fleiss ( Statistiska metoder för priser och proportioner ) erbjuder följande:

  • “[…] den falskt positiva andelen […] är andelen människor, bland dem som svarar positivt och som faktiskt är fria från sjukdomen. ”
  • ” Den falskt negativa andelen […] är andelen människor, bland dem som svarar negativt på testet, som ändå har sjukdomen. ”

(Han erkänner också de tidigare definitionerna men anser dem” slösaktiga med värdefull terminologi ”, just för att de har en rak relation med känslighet och specificitet.)

Med hänvisning till förvirringsmatrisen betyder det att $ FPR = FP / (TP + FP) $ och $ FNR = FN / (TN + FN) $ så att nämnarna är rad totalt. I Viktigt är att under dessa definitioner kan de falska positiva och falska negativa hastigheterna inte direkt härledas från testets känslighet och specificitet. Du måste också känna till prevalensen (dvs. hur ofta A är i den intressanta befolkningen).

Fleiss använder eller definierar inte fraserna ”sann negativ hastighet” eller ”verklig positiv takt” men om vi antar att dessa också är villkorliga sannolikheter med tanke på ett visst testresultat / klassificering, då är @ guill11aume-svaret rätt.

I vilket fall som helst måste du vara försiktig med definitionerna eftersom det inte finns något obestridligt svar på din fråga.

Kommentarer

  • Mycket bra (+1). Jag hoppade omedelbart på en tolkning, men du har helt rätt i att den alternativa definitionen är standard.
  • @ gui11aume. Tack! Det var min känsla men jag tänkte på det, jag är inte så säker längre. Om man tittar på referenserna kan det bero på fältet (maskininlärning jämfört med medicinsk testning).
  • Min erfarenhet är att den senare definitionen, TPR = TP / (TP + FP), FPR = FP / ( TP + FP) är mer standard.
  • Här ' en publikation om skillnaderna: link.springer. com / article / 10.1007 / s10899-006-9025-5 # uppräkning Observera den nya terminologin " Test FPR " vs . " Prediktiv FPR "

Svar

EDIT: se svaret från Gaël Laurans, vilket är mer exakt.

Om din sanna positiva andel är 0.25 betyder det att varje gång du ringer ett positivt har du en sannolikhet på 0,75 att vara fel. Detta är din falskt positiva ränta. På samma sätt har du en sannolikhet på 0,25 att du har rätt, vilket är din sanna negativa ränta.

Kommentarer

  • Beror på vad man försöker karakterisera: testet i inställningen att veta sanningen i förväg, eller försöka bestämma sannolikheten efter testet bara med tanke på resultaten i handen.

Svar

Inget om detta är vettigt om ”positivt” och ”negativt” inte är meningsfullt för det aktuella problemet. Jag ser många problem där ”positiva” och ”negativa” är godtyckliga tvingade val på en ordinarie eller kontinuerlig variabel. FP, TP, sens, spec är bara användbara för allt-eller-ingenting-fenomen.

Svar

<åt sidan class = " s-meddelande s-meddelande__info js-post-meddelande mb16 "role =" status ">

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *