Pourquoi le score bêta f définit-il le bêta comme ça?

Voici le score F beta: $$ F_ \ beta = (1 + \ beta ^ 2) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {rappel}} {(\ beta ^ 2 \ cdot \ mathrm {precision}) + \ mathrm {rappel}} $$

Le Larticle de Wikipedia déclare que $ F_ \ beta $ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision".

Je nai pas eu lidée. Pourquoi définir $ \ beta $ comme ça? Puis-je définir $ F_ \ beta $ comme ceci:

$$ F_ \ beta = (1 + \ beta) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {rappel}} {( \ beta \ cdot \ mathrm {precision}) + \ mathrm {rappel}} $$

Et comment afficher β times as much importance?

Commentaires

  • Découvrez une réponse plus récente ci-dessous qui inclut le calcul différentiel qui traite de  » pourquoi la bêta au carré et non Bêta « .

Réponse

Laisser $ \ beta $ étant le poids dans la première définition que vous fournissez et $ \ tilde \ beta $ le poids dans la seconde, les deux définitions sont équivalentes lorsque vous définissez $ \ tilde \ beta = \ beta ^ 2 $, donc ces deux définitions représentent seulement des différences de notation dans la définition du score $ F_ \ beta $. Je lai vu définir à la fois la première manière (par exemple sur la page wikipedia ) et la seconde (par exemple ici ).

La mesure $ F_1 $ est obtenue en prenant la moyenne harmonique de précision et de rappel, à savoir linverse de la moyenne de la réciproque de précision et de linverse de rappel:

\ begin {align *} F_1 & = \ frac {1} {\ frac {1} {2} \ frac {1} {\ text {precision}} + \ frac {1} {2} \ frac {1} {\ text {rappel}}} \\ & = 2 \ frac {\ text {precision} \ cdot \ text {rappel}} {\ text {precision} + \ text {rappel}} \ end {align *}

Au lieu dutiliser des poids dans le dénominateur qui sont égaux et totalisent 1 ($ \ frac {1 } {2} $ pour le rappel et $ \ frac {1} {2} $ pour la précision), nous pourrions plutôt attribuer des poids qui totalisent toujours 1 mais pour lesquels le poids au rappel est $ \ beta $ fois plus grand que le poids sur la précision ($ \ frac {\ beta} {\ beta + 1} $ pour le rappel et $ \ frac {1} {\ beta + 1} $ pour la précision). Cela donne votre deuxième définition du score $ F_ \ beta $:

\ begin {align *} F_ \ beta & = \ frac {1} {\ frac {1} {\ beta + 1} \ frac {1} {\ text {precision}} + \ frac {\ beta} {\ beta + 1} \ frac {1} {\ text {rappel}}} \\ & = (1+ \ beta) \ frac {\ text {precision} \ cdot \ text {rappel}} {\ beta \ cdot \ text {precision} + \ text {rappel }} \ end {align *}

Encore une fois, si nous avions utilisé $ \ beta ^ 2 $ au lieu de $ \ beta $ ici, nous serions arrivés à votre première définition, donc les différences entre les deux définitions ne sont que des notations.

Commentaires

  • pourquoi ont-ils multiplié $ \ beta $ avec le terme de précision au lieu du terme de rappel?
  • Le calcul différentiel qui traite de  » pourquoi Beta au carré et non Beta  » est inclus dans une nouvelle réponse ci-dessous.
  • @Anwarvic Ils ont multiplié $ \ beta $ avec le rappel inverse . Après avoir pris en compte $ (1+ \ beta) $ et développé avec $ \ text {precision} \ cdot \ text {rappel} $, il reste un $ \ beta \ cdot \ text {precision} $ terme

Réponse

La raison de la définition du score F-beta avec $ \ beta ^ { 2} $ est exactement la citation que vous fournissez (cest-à-dire que vous voulez joindre $ \ beta $ fois plus dimportance à rappeler que la précision) étant donné une définition particulière pour ce que signifie attacher $ \ beta $ fois plus dimportance à rappeler que de précision.

La manière particulière de définir limportance relative des deux les métriques qui mènent à la formulation $ \ beta ^ {2} $ peuvent être trouvées dans Recherche d’informations (Van Rijsbergen, 1979):

Définition: Limportance relative quun utilisateur attache à la précision et au rappel est le $ P / R $ ratio à whi ch $ \ partial {E} / \ partial {R} = \ partial {E} / \ partial {P} $ , où $ E = E (P, R) $ est la mesure de lefficacité basée sur la précision et le rappel.

La motivation pour cela étant:

Le moyen le plus simple que je connaisse pour quantifier cela est de spécifier le $ P / R $ ratio auquel lutilisateur est prêt à échanger un incrément de précision contre une perte égale de rappel.

Pour voir que cela conduit à la formulation $ \ beta ^ {2} $ nous peut commencer par la formule générale de la moyenne harmonique pondérée de $ P $ et $ R $ et calculer leur dérivées partielles par rapport à $ P $ et $ R $ . La source citée utilise $ E $ (pour  » mesure defficacité « ) , qui est juste $ 1-F $ et lexplication est équivalente que nous considérions $ E $ ou $ F $ .

\ begin {equation} F = \ frac {1} {(\ frac { \ alpha} {P} + \ frac {1- \ alpha} {R})} \ end {équation}

\ begin {équation } \ partial {F} / \ partial {P} = \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ { 2}} \ end {equation}

\ begin {equation} \ partial {F} / \ partial {R} = \ frac {1 – \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} \ end {équation}

Désormais, définir les dérivés égaux les uns aux autres impose une restriction sur la relation entre $ \ alpha $ et le ratio $ P / R $ . Étant donné que nous souhaitons attacher $ \ beta $ fois plus dimportance à rappeler que de précision, nous considérerons le rapport $ R / P $ 1 :

\ begin {equation} \ partial {F} / \ partial {P} = \ partial {F} / \ partial {R} \ rightarrow \ frac {\ alpha} {P ^ {2}} = \ frac {1- \ alpha} {R ^ {2}} \ rightarrow \ frac {R} {P } = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ end {equation}

Définition de $ \ beta $ comme ce rapport et la réorganisation pour $ \ alpha $ donne les pondérations en termes de $ \ beta ^ {2} $ :

\ begin {equation} \ beta = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ rightarrow \ beta ^ {2} = \ frac {1- \ alpha} {\ alpha} \ rightarrow \ beta ^ {2} + 1 = \ frac {1} {\ alpha} \ rightarrow \ alpha = \ frac {1} {\ beta ^ {2} + 1} \ end {équation}

\ begin {equation} 1 – \ alpha = 1 – \ frac {1 }{\bêta ^ {2} + 1} \ rightarrow \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ end {equation}

Nous obtenons:

\ begin {équation} F = \ frac {1} {(\ frac {1} {\ beta ^ {2} + 1} \ frac {1} { P} + \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ frac {1} {R})} \ end {equation}

Qui peut être réorganisé pour donner la forme à votre question.

Ainsi, étant donné la définition citée, si vous souhaitez joindre $ \ beta $ fois comme il est très important de se rappeler que la précision est alors la formulation $ \ beta ^ {2} $ doit être utilisée. Cette interprétation ne tient pas si lon utilise $ \ beta $ .

Vous pouvez définir un score comme vous le suggérez. Dans ce cas, comme la montré Vic , la définition de limportance relative que vous supposeriez est:

Définition: Limportance relative quun utilisateur attache à la précision et au rappel est le $ \ partial {E} / \ partial {R} = \ partial {E} / \ ratio {P} $ partiel auquel $ R = P $ .

Notes de bas de page:

  1. $ P / R $ est utilisé dans la recherche d’informations mais cela semble être une faute de frappe, voir La vérité de la mesure F (Saski, 2007).

Références:

  1. C. J. Van Rijsbergen. 1979. Information Retrieval (2e éd.), Pp.133-134
  2. Y. Sasaki. 2007. «La vérité de la mesure F», enseignement, matériel didactique

Commentaires

Réponse

Pour signaler quelque chose rapidement.

Cela signifie quau fur et à mesure que la valeur bêta augmente, vous accordez plus dimportance à la précision.

Je pense en fait que cest le contraire – car plus est mieux dans la notation F-β, vous voulez que le dénominateur soit petit. Par conséquent, si vous diminuez β, alors le modèle est moins puni pour avoir un bon score de précision. Si vous augmentez β, alors le score F-β est plus puni lorsque la précision est élevée.

Si vous souhaitez pondérer le score F-β de sorte quil valorise la précision, β doit être égal à 0 < β < 1, où β-> 0 ne valeur que la précision (le numérateur devient très petit, et la seule chose dans le dénominateur est le rappel, donc le score F-β diminue à mesure que le rappel augmente).

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html

Réponse

TLDR; Contrairement à la littérature qui remonte à une définition proposée arbitraire, en utilisant un $ \ beta $ comme le suggère OP est en fait plus intuitif que le terme $ \ beta ^ 2 $ .

La réponse dune personne « fait bien pour montrer pourquoi $ \ beta ^ { 2} $ apparaît, étant donné la manière choisie par Van Rijsbergen pour définir limportance relative de la précision et du rappel. Cependant, il y a une considération qui « manque dans la littérature, que je soutiens ici: la définition choisie est peu intuitive et non naturelle, et si vous avez réellement utilisé $ F_ \ beta $ (en pratique) tel quil est défini, vous seriez rapidement laissé à penser,  » leffet de $ \ beta $ semble beaucoup plus agressif que la valeur que jai choisie « .

Pour être honnête, cest surtout le résumé de Wikipedia qui est trompeur, car il néglige de mentionner la mesure subjective de limportance impliquée, alors que Van Rijsbergen a simplement présenté une définition possible qui était simple mais pas nécessairement la meilleure ou la plus significative.

Passons en revue le choix de Van Rijsbergen de définition:

Le moyen le plus simple que je connaisse pour quantifier cela est de spécifier le $ P / R $ rapport auquel lutilisateur est prêt à échanger un incrément de précision pour une perte égale en rappel.

De manière générale, si $ R / P > \ beta $ alors une augmentation de $ P $ est plus influente quune augmentation de $ R $ , alors que $ R $ est plus influent que $ P $ $ R / P < \ beta $ . Mais voici pourquoi je dirais que la pondération nest pas intuitive. Lorsque $ P = R $ , augmente de $ R $ sont $ \ beta ^ 2 $ fois plus efficaces que $ P $ . (Cela peut être calculé à partir des dérivées partielles fournies dans la réponse de Une personne « .) Quand quelquun dit  » je veux me rappeler être pondérée 3x plus importante que la précision « , je ne sauterais pas à la définition qui équivaut à  » la précision sera pénalisée tant qu’elle ne sera pas littéralement un tiers de la valeur de rappel « , et je ne mattendrais certainement pas à ce que lorsque la précision et le rappel soient égaux, le rappel contribue 9x autant. Cela ne semble pas pratique dans la plupart des situations où vous voulez idéalement que la précision et le rappel soient élevés, l’un étant un peu plus haut que l’autre.

Voici une représentation visuelle de ce que $ F_ \ beta $ ressemble à. Les lignes rouges mettent en évidence le ratio $ R / P = \ beta $ et que le partiel les dérivés de $ F_ \ beta $ sont égaux à ce rapport, indiqué par les pentes rouges pleines. entrez la description de limage ici

Je « vais maintenant présenter une autre définition subjective, qui équivaut à  » lorsque la précision et le rappel sont égaux, les améliorations du rappel valent $ \ gamma $ fois plus que les améliorations de la précision « . Je soutiens que cette définition est plus intuitive tout en étant aussi simple que celle de Van Rijsbergen:

Quand $ P = R $ , définissez $ \ frac {\ partial {F} / \ partial {R}} {\ partial {F} / \ partial {P}} = \ gamma $ , où $ \ gamma $ est limportance relative des améliorations du rappel sur la précision.

Remplacement des équations dérivées de la réponse de Une personne :

$ \ frac {1- \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} = \ gamma \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ {2}} $

Se souvenir de cela $ P = R $ , cela se simplifie en:

$ \ gamma = \ frac {1- \ alpha} {\ alpha} $ et $ \ alpha = \ frac {1} {\ gamma + 1} $ ,

en contraste avec:

$ \ beta ^ 2 = \ frac {1- \ alpha} {\ alpha} $ et $ \ alpha = \ frac {1} {\ beta ^ 2 + 1} $ sous la formulation de Van Rijsbergen.

Quest-ce que cela signifie? Un résumé informel:

  • La définition de Van Rijsbergen $ \ Leftrightarrow $ le rappel est $ \ beta $ fois plus important que la précision en termes de valeur .
  • Ma proposition définition $ \ Leftrightarrow $ le rappel est $ \ gamma $ fois plus important que la précision en termes daméliorations de la valeur .
  • Les deux définitions sont basées sur une moyenne harmonique pondérée de précision et de rappel, et les pondérations sous ces deux définitions peuvent être mappées. Plus précisément, placer $ \ beta = \ sqrt {\ gamma} $ fois limportance en termes de valeur équivaut à placer $ \ gamma $ fois limportance en termes daméliorations de la valeur.
  • On peut soutenir que lutilisation dun $ \ beta $ terme au lieu de $ \ beta ^ 2 $ est une pondération plus intuitive.

Réponse

La raison pour laquelle β ^ 2 est multiplié avec précision est simplement la façon dont les scores F sont définis. Cela signifie quà mesure que la valeur bêta augmente, vous appréciez davantage la précision. Si vous vouliez le multiplier par un rappel qui fonctionnerait également, cela signifierait simplement quà mesure que la valeur bêta augmente, vous vous rappelez davantage.

Réponse

La valeur bêta supérieure à 1 signifie que nous voulons que notre modèle accorde plus dattention au modèle Recall par rapport à Precision. Dautre part, une valeur inférieure à 1 met davantage laccent sur la précision.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *