Givet ægte positive, falske negative satser, kan du beregne falske positive, sande negative?

Jeg har værdier for True Positive (TP) og False Negative (FN) som følger:

TP = 0.25 FN = 0.75 

Fra disse værdier kan vi beregne False Positive (FP) og True Negative (TN)?

Svar

Der er en hel del terminologisk forvirring i dette område. Personligt finder jeg det altid nyttigt at komme tilbage til en forvirringsmatrix for at tænke over dette. I en klassificering / screeningstest kan du have fire forskellige situationer:

 Condition: A Not A Test says “A” True positive | False positive ---------------------------------- Test says “Not A” False negative | True negative 

I denne tabel er “sandt positivt”, “falsk negativt”, “falsk positivt ”Og” ægte negativ ”er begivenheder (eller sandsynligheden for dem). Det, du har, er derfor sandsynligvis en ægte positiv rate og en falsk negativ rate . Sondringen betyder noget, fordi den understreger, at begge tal har en tæller og en nævner.

Hvor tingene bliver lidt forvirrende, er at du kan finde flere definitioner af “falsk positiv sats” og “falsk negativ sats”, med forskellige nævnere.

For eksempel giver Wikipedia følgende definitioner (de virker ret standard):

  • Ægte positiv rate (eller følsomhed): $ TPR = TP / (TP + FN) $
  • Falsk positiv rate: $ FPR = FP / (FP + TN) $
  • Sand negativ sats (eller specificitet): $ TNR = TN / (FP + TN) $

I alle tilfælde er nævneren kolonnen i alt. Dette giver også et tegn på deres fortolkning: Den sande positive sats er sandsynligheden for, at testen siger “A”, når den reelle værdi faktisk er A (dvs. det er en betinget sandsynlighed, forudsat at A er sand). Dette fortæller dig ikke hvor sandsynligt du er korrekt, når du kalder “A” (dvs. sandsynligheden for, at en sand positiv er betinget af, at testresultatet er “A”).

Forudsat at den falske negative sats er defineret på samme måde, har vi derefter $ FNR = 1 – TPR $ (bemærk, at dine tal er i overensstemmelse med dette). Vi kan dog ikke direkte udlede den falske positive sats fra hverken de sande positive eller falske negative satser, fordi de ikke giver nogen information om specificiteten, dvs. hvordan testen opfører sig, når “ikke A” er det rigtige svar. Svaret på dit spørgsmål ville derfor være ”nej, det er ikke muligt”, fordi du ikke har nogen oplysninger i højre kolonne i forvirringsmatrixen.

Der er dog andre definitioner i litteraturen. For eksempel, Fleiss ( Statistiske metoder til priser og proportioner ) tilbyder følgende:

  • “[…] den falske positive sats […] er andelen af mennesker, blandt dem, der svarer positive, og som faktisk er fri for sygdommen. ”
  • “ Den falske negative sats […] er andelen af mennesker, blandt dem, der svarer negativ på testen, der ikke desto mindre har sygdommen. ”

(Han anerkender også de tidligere definitioner, men betragter dem som” spild af dyrebar terminologi ”, netop fordi de har et ligetil forhold med følsomhed og specificitet.)

Med henvisning til forvirringsmatrixen betyder det, at $ FPR = FP / (TP + FP) $ og $ FNR = FN / (TN + FN) $, så nævnerne er række totaler. I det er vigtigt, at under disse definitioner kan de falske positive og falske negative satser ikke direkte udledes af testens følsomhed og specificitet. Du er også nødt til at kende prævalensen (dvs. hvor hyppig A er i befolkningen af interesse).

Fleiss bruger eller definerer ikke sætningerne “sand negativ hastighed” eller “sand positiv hastighed”, men hvis vi antager, at disse også er betingede sandsynligheder givet et bestemt testresultat / klassifikation, så er @ guill11aume svaret det rigtige.

Under alle omstændigheder skal du være forsigtig med definitionerne, fordi der ikke er noget uomtvisteligt svar på dit spørgsmål.

Kommentarer

  • Meget god (+1). Jeg sprang straks på en fortolkning, men du har helt ret i, at den alternative definition er standard.
  • @ gui11aume. Tak! Det var min følelse, men jeg tænker over det, jeg er ikke så sikker længere. Når man ser på referencerne, kan det afhænge af feltet (maskinindlæring versus medicinsk test).
  • Min erfaring er, at sidstnævnte definition, TPR = TP / (TP + FP), FPR = FP / ( TP + FP) er mere standard.
  • Her ' en publikation om forskellene: link.springer. com / article / 10.1007 / s10899-006-9025-5 # enumeration Bemærk den nye terminologi " Test FPR " vs . " Forudsigelig FPR "

Svar

EDIT: se svaret fra Gaël Laurans, hvilket er mere nøjagtigt.

Hvis din sande positive sats er 0.25 betyder det, at hver gang du kalder et positivt, har du en sandsynlighed på 0,75 for at være forkert. Dette er din falsk positive sats. Tilsvarende, hver gang du kalder et negativt, har du en sandsynlighed på 0,25 for at have ret, hvilket er din sande negative sats.

Kommentarer

  • Afhænger på hvad man forsøger at karakterisere: testen i indstillingen om at kende sandheden på forhånd eller forsøger at beslutte om sandsynligheden for posttest bare givet resultaterne i hånden.

Svar

Ingen, hvis dette giver mening, hvis “positiv” og “negativ” ikke giver mening for det aktuelle problem. Jeg ser mange problemer, hvor “positive” og “negative” er vilkårlige tvangsvalg på en ordinær eller kontinuerlig variabel. FP, TP, sens, spec er kun nyttige til alt-eller-intet fænomener.

Svar

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *