なぜfベータスコアがそのようなベータを定義するのですか?

これはFベータスコアです:$$ F_ \ beta =(1 + \ beta ^ 2)\ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {(\ beta ^ 2 \ cdot \ mathrm {precision})+ \ mathrm {recall}} $$

ウィキペディアの記事には、$ F_ \ beta $ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision"と記載されています。

わかりませんでした。なぜ$ \ beta $をそのように定義するのですか? $ F_ \ beta $を次のように定義できますか:

$$ F_ \ beta =(1 + \ beta)\ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {( \ beta \ cdot \ mathrm {precision})+ \ mathrm {recall}} $$

そしてβ times as much importanceを表示する方法は?

コメント

  • “ベータ二乗 iの理由に対処する微分計算を含む以下の新しい回答を確認してください>ベータ版ではありません”。

回答

$ Let \ beta $は、指定する最初の定義の重みであり、$ \ tilde \ beta $は、2番目の定義の重みです。$ \ tilde \ beta = \ beta ^ 2 $を設定すると、2つの定義は同等になるため、これら2つの定義は$ F_ \ beta $スコアの定義の表記上の違いのみ。最初の方法(例: wikipediaページ)と2番目の方法(例:)の両方がここで定義されているのを見ました。 )。

$ F_1 $メジャーは、適合率と再現率の調和平均、つまり適合率の逆数と再現率の逆数の平均の逆数を取ることによって取得されます。

\ begin {align *} F_1 & = \ frac {1} {\ frac {1} {2} \ frac {1} {\ text {precision}} + \ frac {1} {2} \ frac {1} {\ text {recall}}} \\ & = 2 \ frac {\ text {precision} \ cdot \ text {recall}} {\ text {precision} + \ text {recall}} \ end {align *}

分母に等しく、合計が1の重みを使用する代わりに($ \ frac {1 } {2} $は再現率、$ \ frac {1} {2} $は適合率)、代わりに合計が1であるが、再現率の重みが重みの$ \ beta $倍である重みを割り当てる場合があります。適合率について(再現率の場合は$ \ frac {\ beta} {\ beta + 1} $、適合率の場合は$ \ frac {1} {\ beta + 1} $)。これにより、$ F_ \ beta $スコアの2番目の定義が得られます。

\ begin {align *} F_ \ beta & = \ frac {1} {\ frac {1} {\ beta + 1} \ frac {1} {\ text {precision}} + \ frac {\ beta} {\ beta + 1} \ frac {1} {\ text {recall}}} \\ & =(1+ \ beta)\ frac {\ text {precision} \ cdot \ text {recall}} {\ beta \ cdot \ text {precision} + \ text {recall }} \ end {align *}

ここでも、$ \ beta $の代わりに$ \ beta ^ 2 $を使用した場合、最初の定義に到達するため、2つの定義の違い

コメント

  • なぜ$ \ beta $にリコール項ではなく精度項を掛けたのですか?
  • “ベータ”ではなくベータ squared に対応する微分計算が新しい回答に含まれている以下。
  • @Anwarvic彼らは$ \ beta $にリコールを掛けました。 $(1+ \ beta)$を因数分解し、$ \ text {precision} \ cdot \ text {recall} $で展開した後、$ \ beta \ cdot \ text {precision} $の項が残っています

回答

$ \ beta ^ {でFベータスコアを定義する理由2} $ は、特定の定義が与えられた場合に提供する見積もりです(つまり、 $ \ beta $ を再現率の2倍の重要度で添付したい)適合率の $ \ beta $ 倍の重要度を付加することの意味

2つの相対的な重要性を定義する特定の方法 $ \ beta ^ {2} $ の定式化につながる指標は、情報検索(Van Rijsbergen、1979)にあります。

定義:ユーザーが適合率と再現率を重視する相対的な重要性は、 $ P / R $ です。 whiでの比率ch $ \ partial {E} / \ partial {R} = \ partial {E} / \ partial {P} $ 、ここで $ E = E(P、R)$ は、適合率と再現率に基づく有効性の尺度です。

この動機存在:

これを定量化するための最も簡単な方法は、 $ P / R $ を指定することです。スパン>適合率の増分を、再現率の同等の損失と交換することをいとわない比率。

これが $ \ beta ^ {2} $ の定式化につながることを確認するために $ P $ $ R $ の加重調和平均の一般式から始めて、それらを計算できます。 $ P $ および $ R $ に関する偏導関数。引用されたソースは、 $ E $ を使用しています(”有効性測定”) 、これは $ 1-F $ であり、 $ E $ $ F $

\ begin {equation} F = \ frac {1} {(\ frac { \ alpha} {P} + \ frac {1- \ alpha} {R})} \ end {equation}

\ begin {equation } \ partial {F} / \ partial {P} = \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R})^ {2} P ^ { 2}} \ end {equation}

\ begin {equation} \ partial {F} / \ partial {R} = \ frac {1 -\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R})^ {2} R ^ {2}} \ end {equation}

これで、導関数を互いに等しく設定すると、 $ \ alpha $ と比率 $ P / R $ 。 $ \ beta $ 倍の精度を思い出す重要性を付けたい場合は、比率 $ R /を検討します。 P $ 1

\ begin {equation} \ partial {F} / \ partial {P} = \ partial {F} / \ partial {R} \ rightarrow \ frac {\ alpha} {P ^ {2}} = \ frac {1- \ alpha} {R ^ {2}} \ rightarrow \ frac {R} {P } = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ end {equation}

$ \ beta $ をこの比率として、 $ \ alpha $ を再配置すると、 $ \ beta ^ {2}の観点から重みが与えられます。 $

\ begin {equation} \ beta = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ rightarrow \ beta ^ {2} = \ frac {1- \ alpha} {\ alpha} \ rightarrow \ beta ^ {2} + 1 = \ frac {1} {\ alpha} \ rightarrow \ alpha = \ frac {1} {\ beta ^ {2} + 1} \ end {equation}

\ begin {equation} 1- \ alpha = 1- \ frac {1 }{\ベータ^ {2} + 1} \ rightarrow \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ end {equation}

次のようになります:

\ begin {equation} F = \ frac {1} {(\ frac {1} {\ beta ^ {2} + 1} \ frac {1} { P} + \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ frac {1} {R})} \ end {equation}

どちらか

したがって、引用された定義を前提として、 $ \ beta $ 回を次のように添付する場合は、並べ替えることができます。精度として思い出すことが非常に重要であるため、 $ \ beta ^ {2} $ 式を使用する必要があります。 $ \ beta $ を使用する場合はこの解釈は当てはまりません。

提案どおりにスコアを定義できます。この場合、 Vic が示しているように、想定する相対的な重要度の定義は次のとおりです。

定義:ユーザーが適合率と再現率を重視する相対的な重要性は、 $ \ partial {E} / \ partial {R} = \ partial {E} / \ $ R = P $ となる部分的な{P} $ の比率。

脚注:

  1. $ P / R $ 情報検索で使用されますが、これはタイプミスのようです。 Fメジャーの真実(Saski、2007年)を参照してください。

参照:

  1. C。 J.ヴァンライスベルゲン。 1979年。情報検索(第2版)、pp.133-134
  2. Y。佐々木。 2007.「Fメジャーの真実」、教育、チュートリアル資料

コメント

回答

何かをすばやく指摘する。

これは、ベータ値が増加するにつれて、精度をより重視することを意味します。

実際には、逆だと思います。 F-βスコアが優れている場合は、分母を小さくする必要があります。したがって、βを小さくすると、モデルの罰則が少なくなり、精度スコアが高くなります。βを大きくすると、F-βスコアの罰則が大きくなります。精度が高いです。

精度を評価するようにF-βスコアに重みを付ける場合、βは0にする必要があります<β< 1、ここでβ-> 0は適合率のみを評価します(分子は非常に小さくなり、分母の唯一のものは再現率であるため、再現率が増加するとF-βスコアは減少します)。

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html

回答

TLDR; すべてが $ \ beta $ の用語は、実際には $ \ beta ^ 2 $ の用語よりも直感的です。

の答えは、 $ \ beta ^ {の理由を示すのに適しています。精度と再現率の相対的な重要性を定義するためにVanRijsbergenが選択した方法を考えると、2} $ が表示されます。ただし、ここで主張している「文献に欠けている」という考慮事項があります。選択した定義は直感的でなく不自然であり、実際に $ F_ \ beta $ (実際には)それが定義されている方法では、” $ \ beta $の効果についてすぐに考える必要があります。 は、私が選択した値よりもはるかに積極的であるようです”。

公平を期すために、誤解を招くのは主にWikipediaの要約です。関係する重要性の主観的な尺度について言及することを怠っているのに対し、Van Rijsbergenは単純な定義を提示しただけですが、必ずしも最良または最も意味のある定義ではありません。

VanRijsbergenの選択を確認しましょう。定義:

これを定量化するための最も簡単な方法は、 $ P / R $ を指定することです。スパン>ユーザーが精度の増分を交換する意思がある比率リコールの均等な損失。

一般的に言えば、 $ R / P > \ beta $ の場合、 $ P $ の増加は、の増加よりも影響力があります。 $ R $ に対して、 $ R $ $ P $ よりも影響力があります。 $ R / P < \ beta $ 。しかし、ここで、重み付けが直感的ではないと主張する理由があります。 $ P = R $ の場合、 $ R $が増加します。 $ \ beta ^ 2 $ の $ P $ の2倍の効果があります(これは A Person の回答で提供されている偏導関数から計算されます。)誰かが”と言ったとき精度よりも3倍重要な重みが付けられます”、”に相当する定義にジャンプしません。精度はそれまでペナルティが課せられます。文字通りリコールの値の3分の1 “であり、精度とリコールが等しい場合、リコールが9倍になるとは思いません。これは、適合率と再現率の両方を理想的に高くしたいほとんどの状況では実用的ではないようです。一方だけをもう一方より少し高くしたいのです。

以下は、 $ F_ \ beta $ は次のようになります。赤い線は比率 $ R / P = \ beta $ と偏微分を強調しています。 $ F_ \ beta $ の導関数は、その比率で等しく、赤い実線の傾きで示されます。 ここに画像の説明を入力

ここで、代替の主観的な定義を示します。これは、精度が高い場合は”に相当します。再現率は同等であり、再現率の改善は、適合率の改善”の $ \ gamma $ 倍の価値があります。この定義は、Van Rijsbergenの定義と同じくらい単純でありながら、より直感的であると私は主張します。

$ P = R $ の場合、 $ \ frac {\ partial {F} / \ partial {R}} {\ partial {F} / \ partial {P}} = \ gamma $ 、ここで $ \ gamma $ は、精度よりも想起における改善の相対的な重要性です。

の答えで導出された方程式を代入する:

$ \ frac {1- \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R})^ {2} R ^ {2}} = \ gamma \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R})^ {2} P ^ {2}} $

覚えておいてください $ P = R $ 、これは次のように簡略化されます:

$ \ gamma = \ frac {1- \ alpha} {\ alpha} $ および $ \ alpha = \ frac {1} {\ gamma + 1} $ 、

対照:

$ \ beta ^ 2 = \ frac {1- \ alpha} {\ alpha} $ および $ \ alpha = \ frac {1} {\ beta ^ 2 + 1} $ 、VanRijsbergenの定式化。

これはどういう意味ですか?非公式の要約:

  • VanRijsbergenの定義 $ \ Leftrightarrow $ 再現率は $ \ beta $ 値の点で適合率の2倍重要
  • 提案定義 $ \ Leftrightarrow $ 再現率は $ \ gamma $ の適合率の倍の重要性”>

値の改善に関する。

  • どちらの定義も、適合率と再現率の加重調和平均、および以下の加重に基づいています。これらの2つの定義はマッピングできます。具体的には、値に関して $ \ beta = \ sqrt {\ gamma} $ 倍の重要度を配置することは、 $ \ gamma $ は価値の向上という点で重要です。
  • pan class =” math-containeを使用すると主張することができます。 $ \ beta ^ 2 $ の代わりにr “> $ \ beta $ という用語は、より直感的な重み付けです。
  • 回答

    β^ 2が正確に乗算される理由は、Fスコアを定義する方法にすぎません。これは、ベータ値が増加するにつれて、精度をより重視することを意味します。それをリコールで乗算したい場合は、ベータ値が増加するにつれて、リコールの値が増えることを意味します。

    回答

    ベータ値が1より大きい場合は、Precisionと比較してモデルのRecallにもっと注意を払う必要があることを意味します。一方、1未満の値は、精度をより重視します。

    コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です