Gegeven echt-positieve, fout-negatieve cijfers, kunt u dan vals-positief, echt-negatief berekenen?

Ik heb waarden voor True Positive (TP) en False Negative (FN) als volgt:

TP = 0.25 FN = 0.75 

Kunnen we op basis van die waarden False Positive (FP) en True Negative (TN)?

Antwoord

Er is nogal wat terminologische verwarring op dit gebied. Persoonlijk vind ik het altijd handig om terug te komen op een verwarringmatrix om hierover na te denken. In een classificatie- / screeningstest kunt u vier verschillende situaties hebben:

 Condition: A Not A Test says “A” True positive | False positive ---------------------------------- Test says “Not A” False negative | True negative 

In deze tabel, “echt positief”, “fout negatief”, “fout positief” ”En“ echt negatief ”zijn gebeurtenissen (of hun waarschijnlijkheid). Wat je hebt is daarom waarschijnlijk een echt positief tarief en een vals negatief tarief . Het onderscheid is van belang omdat het benadrukt dat beide getallen een teller en een noemer hebben.

Waar dingen een beetje verwarrend worden, is dat je verschillende definities kunt vinden van “vals-positief tarief” en “vals negatief tarief”, met verschillende noemers.

Bijvoorbeeld, Wikipedia biedt de volgende definities (ze lijken vrij standaard):

  • Echt-positief percentage (of gevoeligheid): $ TPR = TP / (TP + FN) $
  • Fout-positief percentage: $ FPR = FP / (FP + TN) $
  • Waar negatief tarief (of specificiteit): $ TNR = TN / (FP + TN) $

In alle gevallen is de noemer het kolom totaal. Dit geeft ook een aanwijzing voor hun interpretatie: het echte positieve percentage is de kans dat de test “A” zegt terwijl de echte waarde inderdaad A is (d.w.z. het is een voorwaardelijke waarschijnlijkheid, afhankelijk van het feit dat A waar is). Dit zegt niet hoe waarschijnlijk het is dat u gelijk heeft wanneer u “A” roept (dwz de waarschijnlijkheid van een echt positief punt, op voorwaarde dat het testresultaat “A” is).

Ervan uitgaande dat het percentage vals-negatieve cijfers op dezelfde manier wordt gedefinieerd, hebben we $ FNR = 1 – TPR $ (merk op dat uw cijfers hiermee consistent zijn). We kunnen het percentage vals-positieven echter niet rechtstreeks afleiden uit de percentages echt-positief of vals-negatief, omdat ze geen informatie geven over de specificiteit, d.w.z. hoe de test zich gedraagt wanneer “niet A” het juiste antwoord is. Het antwoord op uw vraag zou daarom zijn “nee, het is niet mogelijk” omdat u geen informatie heeft over de rechterkolom van de verwarringmatrix.

Er zijn echter andere definities in de literatuur. Bijvoorbeeld, Fleiss ( Statistische methoden voor tarieven en verhoudingen ) biedt het volgende:

  • “[…] het percentage vals-positieve reacties […] is het percentage mensen onder degenen die positief reageren en die feitelijk vrij zijn van de ziekte. “
  • ” Het percentage fout-negatieve […] is het percentage mensen onder degenen die reageren negatief op de test, die niettemin de ziekte hebben. ”

(Hij erkent ook de voorgaande definities, maar beschouwt ze als“ verkwisting van kostbare terminologie ”, juist omdat ze een directe relatie hebben met gevoeligheid en specificiteit.)

Verwijzend naar de verwarringmatrix, betekent dit dat $ FPR = FP / (TP + FP) $ en $ FNR = FN / (TN + FN) $, dus de noemers zijn de rij totalen. I Belangrijk is dat onder deze definities de percentages fout-positieve en fout-negatieve resultaten niet rechtstreeks kunnen worden afgeleid uit de gevoeligheid en specificiteit van de test. U moet ook de prevalentie weten (dwz hoe vaak A voorkomt in de populatie van interesse).

Fleiss gebruikt of definieert de uitdrukkingen “echt negatief percentage” of het “echt positief percentage” niet, maar als we nemen aan dat dit ook voorwaardelijke kansen zijn gegeven een bepaald testresultaat / classificatie, dan is @ guill11aume antwoord de juiste.

In ieder geval moet je voorzichtig zijn met de definities, want er is geen onbetwistbaar antwoord op uw vraag.

Opmerkingen

  • Zeer goed (+1). Ik sprong meteen op één interpretatie, maar je hebt volkomen gelijk dat de alternatieve definitie standaard is.
  • @ gui11aume. Bedankt! Het was mijn gevoel, maar als ik erover nadenk, weet ik het niet meer zo zeker. Als je naar de referenties kijkt, kan het afhangen van het vakgebied (machine learning vs. medisch testen).
  • Mijn ervaring is dat de laatste definitie, TPR = TP / (TP + FP), FPR = FP / ( TP + FP) is meer standaard.
  • Hier ' is een publicatie over de verschillen: link.springer. com / article / 10.1007 / s10899-006-9025-5 # enumeration Let op de nieuwe terminologie " Test FPR " vs . " Voorspellende FPR "

Antwoord

EDIT: zie het antwoord van Gaël Laurans, dat nauwkeuriger is.

Als uw echte positieve tarief 0 is.25 betekent dit dat elke keer dat je een positief belt, je een kans van 0,75 hebt om ongelijk te hebben. Dit is uw percentage vals-positieven. Op dezelfde manier heb je elke keer dat je een negatief noemt, een kans van 0,25 om gelijk te hebben, wat je echte negatieve cijfer is.

Opmerkingen

  • Hangt ervan af op wat men probeert te karakteriseren: de test in de setting van vooraf de waarheid kennen, of proberen te beslissen over de waarschijnlijkheid na de test, gezien de resultaten in de hand.

Antwoord

Geen als dit zinvol is als “positief” en “negatief” niet logisch zijn voor het huidige probleem. Ik zie veel problemen waarbij “positief” en “negatief” willekeurige geforceerde keuzes zijn op een ordinale of continue variabele. FP, TP, sens, spec zijn alleen bruikbaar voor alles-of-niets-fenomenen.

Antwoord

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *