Esta es la puntuación F beta: $$ F_ \ beta = (1 + \ beta ^ 2) \ cdot \ frac {\ mathrm {precisión} \ cdot \ mathrm {recall}} {(\ beta ^ 2 \ cdot \ mathrm {precisión}) + \ mathrm {recall}} $$
El El artículo de Wikipedia afirma que $ F_ \ beta $ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision"
.
No entendí la idea. ¿Por qué definir $ \ beta $ así? ¿Puedo definir $ F_ \ beta $ así:
$$ F_ \ beta = (1 + \ beta) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {( \ beta \ cdot \ mathrm {precision}) + \ mathrm {recall}} $$
¿Y cómo mostrar β times as much importance
?
Comentarios
- Consulte una respuesta más reciente a continuación que incluye el cálculo diferencial que aborda » por qué Beta al cuadrado y no Beta «.
Respuesta
Dejando $ \ beta $ sea el peso en la primera definición que proporcione y $ \ tilde \ beta $ el peso en la segunda, las dos definiciones son equivalentes cuando establece $ \ tilde \ beta = \ beta ^ 2 $, por lo que estas dos definiciones representan solo diferencias notacionales en la definición de la puntuación $ F_ \ beta $. Lo he visto definido tanto de la primera forma (por ejemplo, en la página de wikipedia ) y la segunda (por ejemplo, aquí ).
La medida $ F_1 $ se obtiene tomando la media armónica de precisión y recuerdo, es decir, el recíproco del promedio del recíproco de precisión y el recíproco de recuerdo:
\ begin {align *} F_1 & = \ frac {1} {\ frac {1} {2} \ frac {1} {\ text {precisión}} + \ frac {1} {2} \ frac {1} {\ text {recordatorio}}} \\ & = 2 \ frac {\ text {precisión} \ cdot \ text {recordar}} {\ text {precisión} + \ text {recordar}} \ end {align *}
En lugar de usar pesos en el denominador que son iguales y suman 1 ($ \ frac {1 } {2} $ para recordar y $ \ frac {1} {2} $ para precisión), en su lugar podríamos asignar pesos que aún suman 1 pero para los cuales el peso en el recuerdo es $ \ beta $ veces tan grande como el peso en precisión ($ \ frac {\ beta} {\ beta + 1} $ para recordar y $ \ frac {1} {\ beta + 1} $ para precisión). Esto produce su segunda definición de la puntuación $ F_ \ beta $:
\ begin {align *} F_ \ beta & = \ frac {1} {\ frac {1} {\ beta + 1} \ frac {1} {\ text {precisión}} + \ frac {\ beta} {\ beta + 1} \ frac {1} {\ text {recordar}}} \\ & = (1+ \ beta) \ frac {\ text {precisión} \ cdot \ text {recuperación}} {\ beta \ cdot \ text {precisión} + \ text {recuperación }} \ end {align *}
Nuevamente, si hubiéramos usado $ \ beta ^ 2 $ en lugar de $ \ beta $ aquí, habríamos llegado a su primera definición, por lo que las diferencias entre las dos definiciones son simplemente notacionales.
Comentarios
- ¿Por qué multiplicaron $ \ beta $ con el término de precisión en lugar del término de recuperación?
- El cálculo diferencial que aborda » por qué Beta al cuadrado y no Beta » se incluye en una respuesta más reciente a continuación.
- @Anwarvic Multiplicaron $ \ beta $ con la recuperación inversa . Después de factorizar $ (1+ \ beta) $ y expandir con $ \ text {precisión} \ cdot \ text {recall} $, queda un término $ \ beta \ cdot \ text {precisión} $
Respuesta
La razón para definir la puntuación F-beta con $ \ beta ^ { 2} $ es exactamente la cita que proporcionas (es decir, si deseas agregar $ \ beta $ veces más importancia de recordar como precisión) dada una definición particular de lo que significa asignar $ \ beta $ veces más importancia de recordar que precisión.
La forma particular de definir la importancia relativa de los dos Las métricas que conducen a la formulación $ \ beta ^ {2} $ se pueden encontrar en Recuperación de información (Van Rijsbergen, 1979):
Definición: La importancia relativa que un usuario otorga a la precisión y la recuperación es el $ P / R $ proporción en whi ch $ \ parcial {E} / \ parcial {R} = \ parcial {E} / \ parcial {P} $ , donde $ E = E (P, R) $ es la medida de la eficacia basada en la precisión y el recuerdo.
La motivación para esto siendo:
La forma más sencilla que conozco de cuantificar esto es especificar el $ P / R $ ratio en el que el usuario está dispuesto a intercambiar un incremento de precisión por una pérdida igual de recuperación.
Para ver que esto conduce a la fórmula $ \ beta ^ {2} $ , puede comenzar con la fórmula general para la media armónica ponderada de $ P $ y $ R $ y calcular su derivadas parciales con respecto a $ P $ y $ R $ . La fuente citada usa $ E $ (para » medida de efectividad «) , que es solo $ 1-F $ y la explicación es equivalente si consideramos $ E $ o $ F $ .
\ begin {ecuación} F = \ frac {1} {(\ frac { \ alpha} {P} + \ frac {1- \ alpha} {R})} \ end {ecuación}
\ begin {ecuación } \ parcial {F} / \ parcial {P} = \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ { 2}} \ end {ecuación}
\ begin {ecuación} \ parcial {F} / \ parcial {R} = \ frac {1 – \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} \ end {ecuación}
Ahora, establecer las derivadas iguales entre sí coloca una restricción en la relación entre $ \ alpha $ y la proporción $ P / R $ . Dado que deseamos asignar $ \ beta $ veces más importancia para recordar que precisión, consideraremos la proporción $ R / P $ 1 :
\ begin {ecuación} \ parcial {F} / \ parcial {P} = \ parcial {F} / \ parcial {R} \ rightarrow \ frac {\ alpha} {P ^ {2}} = \ frac {1- \ alpha} {R ^ {2}} \ rightarrow \ frac {R} {P } = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ end {ecuación}
Definiendo $ \ beta $ ya que esta proporción y el reordenamiento de $ \ alpha $ da las ponderaciones en términos de $ \ beta ^ {2} $ :
\ begin {ecuación} \ beta = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ rightarrow \ beta ^ {2} = \ frac {1- \ alpha} {\ alpha} \ rightarrow \ beta ^ {2} + 1 = \ frac {1} {\ alpha} \ rightarrow \ alpha = \ frac {1} {\ beta ^ {2} + 1} \ end {ecuación}
\ begin {ecuación} 1 – \ alpha = 1 – \ frac {1 }{\beta ^ {2} + 1} \ rightarrow \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ end {ecuación}
Obtenemos:
\ begin {ecuación} F = \ frac {1} {(\ frac {1} {\ beta ^ {2} + 1} \ frac {1} { P} + \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ frac {1} {R})} \ end {ecuación}
¿Cuál se puede reorganizar para dar la forma en su pregunta.
Por lo tanto, dada la definición citada, si desea adjuntar $ \ beta $ veces como Es muy importante recordar como precisión, entonces se debe usar la formulación $ \ beta ^ {2} $ . Esta interpretación no es válida si se usa $ \ beta $ .
Puede definir una puntuación como sugiera. En este caso, como ha mostrado Vic , la definición de la importancia relativa que asumiría es:
Definición: La importancia relativa que un usuario concede a la precisión y la recuperación es $ \ partial {E} / \ partial {R} = \ partial {E} / \ proporción {P} $ parcial en la que $ R = P $ .
Notas al pie:
- $ P / R $ se usa en Recuperación de información , pero parece ser un error tipográfico, consulte La verdad de la medida F (Saski, 2007).
Referencias:
- C. J. Van Rijsbergen. 1979. Information Retrieval (2nd ed.), Pp.133-134
- Y. Sasaki. 2007. “La verdad de la medida F”, enseñanza, materiales de tutoriales
Comentarios
- Este debe ser el respuesta aceptada.
- @Anakhand El numerador es la suma de los pesos, consulte en.wikipedia.org/wiki/Harmonic_mean#Weighted_harmonic_mean
Responder
Para señalar algo rápidamente.
Significa que a medida que aumenta el valor beta, valoras más la precisión.
De hecho, creo que es lo contrario, ya que más alto es mejor en la puntuación F-β, desea que el denominador sea pequeño. Por lo tanto, si reduce β, el modelo se castiga menos por tener una buena puntuación de precisión. Si aumenta β, la puntuación F-β se castiga más cuando la precisión es alta.
Si desea ponderar la puntuación F-β para que valore la precisión, β debe ser 0 < β < 1, donde β-> 0 solo valora la precisión (el numerador se vuelve muy pequeño y lo único en el denominador es la recuperación, por lo que la puntuación F-β disminuye a medida que aumenta la recuperación).
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html
Respuesta
TLDR; Contrariamente a la literatura que se remonta a una definición propuesta arbitraria, utilizando un $ \ beta $ término como OP sugiere es en realidad más intuitivo que el término $ \ beta ^ 2 $ .
La respuesta de una persona hace bien en mostrar por qué $ \ beta ^ { Aparece 2} $ , dada la forma elegida por Van Rijsbergen para definir la importancia relativa de la precisión y el recuerdo. Sin embargo, hay una consideración que falta en la literatura, que estoy argumentando aquí: la definición elegida no es intuitiva y antinatural, y si realmente usó $ F_ \ beta $ (en la práctica) de la forma en que se define, rápidamente se quedaría pensando, » el efecto de $ \ beta $ parece mucho más agresivo que el valor que he elegido «.
Para ser justos, el resumen de Wikipedia es principalmente engañoso, ya que omite mencionar la medida subjetiva de importancia involucrada, mientras que Van Rijsbergen simplemente presentó una posible definición que era simple pero no necesariamente la mejor o la más significativa.
Repasemos la elección de Van Rijsbergen de definición:
La forma más sencilla que conozco de cuantificar esto es especificar el $ P / R $ ratio en el que el usuario está dispuesto a intercambiar un incremento de precisión por una pérdida igual de memoria.
En términos generales, si $ R / P > \ beta $ entonces un aumento en $ P $ es más influyente que un aumento en $ R $ , mientras que $ R $ es más influyente que $ P $ donde $ R / P < \ beta $ . Pero he aquí por qué diría que la ponderación no es intuitiva. Cuando $ P = R $ , aumenta en $ R $ son $ \ beta ^ 2 $ veces más efectivas que $ P $ . (Esto puede calcularse a partir de las derivadas parciales proporcionadas en la respuesta de A Person .) Cuando alguien dice » quiero recordar ser 3 veces más importante que la precisión «, no saltaría a la definición que equivale a » la precisión será penalizada hasta que literalmente un tercio del valor de recuerdo «, y ciertamente no esperaría que cuando la precisión y el recuerdo son iguales, el recuerdo contribuya 9 veces más. Eso no parece práctico en la mayoría de las situaciones en las que idealmente desea que tanto la precisión como la recuperación sean altas, solo que una sea un poco más alta que la otra.
A continuación se muestra una representación visual de lo que $ F_ \ beta $ se ve así. Las líneas rojas resaltan la proporción $ R / P = \ beta $ y que el las derivadas de $ F_ \ beta $ son iguales en esa proporción, mostrada por las pendientes rojas sólidas.
Ahora presentaré una definición subjetiva alternativa, que equivale a » cuando la precisión y la recuperación son iguales, las mejoras en la recuperación valen $ \ gamma $ veces más que las mejoras en la precisión «. Sostengo que esta definición es más intuitiva y al mismo tiempo es igualmente simple que la definición de Van Rijsbergen:
Cuando $ P = R $ , establezca $ \ frac {\ parcial {F} / \ parcial {R}} {\ parcial {F} / \ parcial {P}} = \ gamma $ , donde
Sustituyendo ecuaciones derivadas en la respuesta de A Person :
$ \ frac {1- \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} = \ gamma \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ {2}} $
Recordando eso $ P = R $ , esto se simplifica a:
$ \ gamma = \ frac {1- \ alpha} {\ alpha} $ y $ \ alpha = \ frac {1} {\ gamma + 1} $ ,
en contraste con:
$ \ beta ^ 2 = \ frac {1- \ alpha} {\ alpha} $ y $ \ alpha = \ frac {1} {\ beta ^ 2 + 1} $ bajo la fórmula de Van Rijsbergen.
¿Qué significa esto? Un resumen informal:
- La definición de Van Rijsbergen $ \ Leftrightarrow $ recordar es $ \ beta $ veces tan importante como la precisión en términos de valor .
- Mi propuesta definición $ \ Leftrightarrow $ recordar es $ \ gamma $ veces más importante que la precisión en términos de mejoras en el valor .
- Ambas definiciones se basan en una media armónica ponderada de precisión y recuperación, y las ponderaciones bajo estas dos definiciones se pueden asignar. Específicamente, colocar $ \ beta = \ sqrt {\ gamma} $ multiplicado por la importancia en términos de valor es equivalente a colocar $ \ gamma $ veces la importancia en términos de mejoras en el valor.
- Se puede argumentar de manera defendible que usar un $ \ beta $ término en lugar de $ \ beta ^ 2 $ es una ponderación más intuitiva.
Respuesta
La razón por la que β ^ 2 se multiplica con precisión es simplemente la forma en que se definen las F-Scores. Significa que a medida que aumenta el valor beta, valoras más la precisión. Si quisiera multiplicarlo con la recuperación, eso también funcionaría, solo significaría que a medida que aumenta el valor beta, usted valora más la recuperación.
Respuesta
El valor beta mayor que 1 significa que queremos que nuestro modelo preste más atención al modelo Recall en comparación con Precision. Por otro lado, un valor de menos de 1 pone más énfasis en la precisión.