Gitt sanne positive, falske negative priser, kan du beregne falske positive, sanne negative?

Jeg har verdier for True Positive (TP) og False Negative (FN) som følger:

TP = 0.25 FN = 0.75 

Fra disse verdiene kan vi beregne False Positive (FP) og True Negative (TN)?

Svar

Det er ganske mye terminologisk forvirring i dette området. Personlig synes jeg det alltid er nyttig å komme tilbake til en forvirringsmatrise for å tenke på dette. I en klassifiserings- / screeningtest kan du ha fire forskjellige situasjoner:

 Condition: A Not A Test says “A” True positive | False positive ---------------------------------- Test says “Not A” False negative | True negative 

I denne tabellen, “true positive”, “false negative”, “false positive ”Og“ sant negativt ”er hendelser (eller sannsynligheten for dem). Det du har er derfor sannsynligvis en sann positiv rate og en falsk negativ rate . Skillet betyr noe fordi det understreker at begge tallene har en teller og en nevner.

Hvor ting blir litt forvirrende er at du kan finne flere definisjoner av «falsk positiv rate» og «falsk negativ rate», med forskjellige nevnere.

For eksempel gir Wikipedia følgende definisjoner (de virker ganske standard):

  • Ekte positiv rate (eller følsomhet): $ TPR = TP / (TP + FN) $
  • Falsk positiv rate: $ FPR = FP / (FP + TN) $
  • True negativ rate (eller spesifisitet): $ TNR = TN / (FP + TN) $

I alle tilfeller er nevneren kolonnen totalt. Dette gir også en indikasjon på deres tolkning: Den sanne positive frekvensen er sannsynligheten for at testen sier «A» når den virkelige verdien faktisk er A (dvs. det er en betinget sannsynlighet, betinget av at A er sann). Dette forteller ikke deg hvor sannsynlig det er at du er riktig når du kaller “A” (dvs. sannsynligheten for at det er virkelig positivt, forutsatt at testresultatet er “A”).

Forutsatt at den falske negative frekvensen er definert på samme måte, har vi da $ FNR = 1 – TPR $ (merk at tallene dine stemmer overens med dette). Vi kan imidlertid ikke direkte utlede den falske positive frekvensen fra verken de positive eller falske negative frekvensene fordi de ikke gir noen informasjon om spesifisiteten, dvs. hvordan testen oppfører seg når «ikke A» er det riktige svaret. Svaret på spørsmålet ditt vil derfor være «nei, det er ikke mulig» fordi du ikke har noen informasjon i høyre kolonne i forvirringsmatrisen.

Det er imidlertid andre definisjoner i litteraturen. Fleiss ( Statistiske metoder for priser og proporsjoner ) tilbyr følgende:

  • “[…] den falske positive frekvensen […] er andelen mennesker, blant de som svarer positive som faktisk er fri for sykdommen. ”
  • “ Den falske negative frekvensen […] er andelen mennesker, blant de som svarer negativ på testen, som likevel har sykdommen. ”

(Han anerkjenner også de tidligere definisjonene, men anser dem som” sløsende med dyrebar terminologi ”, nettopp fordi de har et rett forhold med følsomhet og spesifisitet.)

Med henvisning til forvirringsmatrisen betyr det at $ FPR = FP / (TP + FP) $ og $ FNR = FN / (TN + FN) $ slik at nevnerne er rad totalt. Jeg Det er viktig at under disse definisjonene kan de falske positive og falske negative hastighetene ikke direkte avledes fra testens sensitivitet og spesifisitet. Du må også vite utbredelsen (dvs. hvor hyppig A er i populasjonen av interesse).

Fleiss bruker eller definerer ikke setningene «sann negativ rate» eller «true positive rate», men hvis vi antar at det også er betingede sannsynligheter gitt et bestemt testresultat / klassifisering, så er @ guill11aume-svaret det riktige.

I alle fall må du være forsiktig med definisjonene fordi det ikke er noe ubestridelig svar på spørsmålet ditt.

Kommentarer

  • Veldig bra (+1). Jeg hoppet umiddelbart på en tolkning, men du har helt rett i at den alternative definisjonen er standard.
  • @ gui11aume. Takk! Det var min følelse, men jeg tenker på det, jeg er ikke så sikker lenger. Ser vi på referansene, kan det avhenge av feltet (maskinlæring vs medisinsk testing).
  • Min erfaring er at sistnevnte definisjon, TPR = TP / (TP + FP), FPR = FP / ( TP + FP) er mer standard.
  • Her ' en publikasjon om forskjellene: link.springer. no / article / 10.1007 / s10899-006-9025-5 # oppregning Merk den nye terminologien " Test FPR " vs . " Forutsigende FPR "

Svar

EDIT: se svaret til Gaël Laurans, som er mer nøyaktig.

Hvis din virkelige positive rate er 0.25 betyr det at hver gang du kaller et positivt, har du en sannsynlighet på 0,75 for å være feil. Dette er din falske positive rate. På samme måte, hver gang du kaller et negativt, har du en sannsynlighet på 0,25 for å ha rett, noe som er din sanne negative rate.

Kommentarer

  • Avhenger på hva man prøver å karakterisere: testen i innstillingen om å vite sannheten på forhånd, eller prøver å bestemme sannsynligheten etter test bare gitt resultatene i hånden.

Svar

Ingen hvis dette gir mening hvis «positivt» og «negativt» ikke gir mening for problemet. Jeg ser mange problemer der «positivt» og «negativt» er vilkårlige tvangsvalg på en ordinær eller kontinuerlig variabel. FP, TP, sens, spec er bare nyttige for alt-eller-ingenting-fenomener.

Svar

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *