Tengo valores para True Positive (TP)
y False Negative (FN)
de la siguiente manera:
TP = 0.25 FN = 0.75
A partir de esos valores, ¿podemos calcular False Positive (FP)
y True Negative (TN)
?
Respuesta
Existe bastante confusión terminológica en esta área. Personalmente, siempre encuentro útil volver a una matriz de confusión para pensar en esto. En una prueba de clasificación / detección, puede tener cuatro situaciones diferentes:
Condition: A Not A Test says “A” True positive | False positive ---------------------------------- Test says “Not A” False negative | True negative
En esta tabla, «verdadero positivo», «falso negativo», «falso positivo ”Y“ verdadero negativo ”son eventos (o su probabilidad). Por lo tanto, lo que tiene es probablemente una tasa de verdaderos positivos y una tasa de falsos negativos. La distinción es importante porque enfatiza que ambos números tienen un numerador y un denominador.
Donde las cosas se vuelven un poco confusas es que puede encontrar varias definiciones de «tasa de falsos positivos» y «tasa de falsos negativos», con diferentes denominadores.
Por ejemplo, Wikipedia proporciona las siguientes definiciones (parecen bastante estándar):
- Tasa de verdaderos positivos (o sensibilidad): $ TPR = TP / (TP + FN) $
- Tasa de falsos positivos: $ FPR = FP / (FP + TN) $
- Verdadero tasa negativa (o especificidad): $ TNR = TN / (FP + TN) $
En todos los casos, el denominador es el total de la columna . Esto también da una pista para su interpretación: la tasa positiva verdadera es la probabilidad de que la prueba diga «A» cuando el valor real es de hecho A (es decir, es una probabilidad condicional, condicionada a que A sea verdadera). Esto no le dice qué tan probable es que tenga razón al llamar «A» (es decir, la probabilidad de un verdadero positivo, condicionado a que el resultado de la prueba sea «A»).
Suponiendo que la tasa de falsos negativos se define de la misma manera, entonces tenemos $ FNR = 1 – TPR $ (tenga en cuenta que sus números son consistentes con esto). Sin embargo, no podemos derivar directamente la tasa de falsos positivos a partir de las tasas de verdaderos positivos o falsos negativos porque no proporcionan información sobre la especificidad, es decir, cómo se comporta la prueba cuando «no A» es la respuesta correcta. Por lo tanto, la respuesta a su pregunta sería «no, no es posible» porque no tiene información en la columna derecha de la matriz de confusión.
Sin embargo, existen otras definiciones en la literatura. Por ejemplo, Fleiss ( Métodos estadísticos para tasas y proporciones ) ofrece lo siguiente:
- “[…] la tasa de falsos positivos […] es la proporción de personas, entre las que respondieron positivas, que en realidad están libres de la enfermedad ”.
- “ La tasa de falsos negativos […] es la proporción de personas, entre las que respondieron negativo en la prueba, que sin embargo tienen la enfermedad «.
(También reconoce las definiciones anteriores, pero las considera» un desperdicio de terminología preciosa «, precisamente porque tienen una relación directa con la sensibilidad y especificidad.)
Refiriéndose a la matriz de confusión, significa que $ FPR = FP / (TP + FP) $ y $ FNR = FN / (TN + FN) $ por lo que los denominadores son los totales de fila . Es importante destacar que, según estas definiciones, las tasas de falsos positivos y falsos negativos no pueden derivarse directamente de la sensibilidad y especificidad de la prueba. También necesita conocer la prevalencia (es decir, la frecuencia con la que A en la población de interés).
Fleiss no usa ni define las frases «tasa negativa verdadera» o la «tasa positiva verdadera» pero si asumimos que también son probabilidades condicionales dado un resultado / clasificación de prueba en particular, entonces la respuesta de @ guill11aume es la correcta.
En cualquier caso, debe tener cuidado con las definiciones porque no hay una respuesta indiscutible para su pregunta.
Comentarios
- Muy bien (+1). Inmediatamente salté sobre una interpretación, pero tiene toda la razón en que la definición alternativa es estándar.
- @ gui11aume. ¡Gracias! Era mi sentimiento, pero al pensar en ello, ya no estoy tan seguro. En cuanto a las referencias, podría depender del campo (aprendizaje automático frente a pruebas médicas).
- Mi experiencia es que la última definición, TPR = TP / (TP + FP), FPR = FP / ( TP + FP) es más estándar.
- Aquí ' una publicación sobre las diferencias: link.springer. com / article / 10.1007 / s10899-006-9025-5 # enumeration Tenga en cuenta la nueva terminología " Prueba FPR " vs . " Predictive FPR "
Respuesta
EDIT: vea la respuesta de Gaël Laurans, que es más precisa.
Si su tasa de verdaderos positivos es 0.25 significa que cada vez que dices positivo, tienes una probabilidad de 0,75 de equivocarte. Ésta es su tasa de falsos positivos. Del mismo modo, cada vez que llamas a un negativo, tienes una probabilidad de 0,25 de acertar, que es tu tasa de negativos reales.
Comentarios
- Depende sobre lo que uno está tratando de caracterizar: la prueba en el escenario para saber la verdad de antemano, o tratando de decidir sobre la probabilidad posterior a la prueba, solo dados los resultados en la mano.
Responder
Ninguno si esto tiene algún sentido si «positivo» y «negativo» no tienen sentido para el problema en cuestión. Veo muchos problemas donde «positivo» y «negativo» son elecciones arbitrarias forzadas en una variable ordinal o continua. FP, TP, sens, spec solo son útiles para fenómenos de todo o nada.