これはFベータスコアです:$$ F_ \ beta =(1 + \ beta ^ 2)\ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {(\ beta ^ 2 \ cdot \ mathrm {precision})+ \ mathrm {recall}} $$
ウィキペディアの記事には、$ F_ \ beta $ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision"
と記載されています。
わかりませんでした。なぜ$ \ beta $をそのように定義するのですか? $ F_ \ beta $を次のように定義できますか:
$$ F_ \ beta =(1 + \ beta)\ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {( \ beta \ cdot \ mathrm {precision})+ \ mathrm {recall}} $$
そしてβ times as much importance
を表示する方法は?
コメント
- “ベータ二乗 iの理由に対処する微分計算を含む以下の新しい回答を確認してください>ベータ版ではありません”。
回答
$ Let \ beta $は、指定する最初の定義の重みであり、$ \ tilde \ beta $は、2番目の定義の重みです。$ \ tilde \ beta = \ beta ^ 2 $を設定すると、2つの定義は同等になるため、これら2つの定義は$ F_ \ beta $スコアの定義の表記上の違いのみ。最初の方法(例: wikipediaページ)と2番目の方法(例:)の両方がここで定義されているのを見ました。 )。
$ F_1 $メジャーは、適合率と再現率の調和平均、つまり適合率の逆数と再現率の逆数の平均の逆数を取ることによって取得されます。
\ begin {align *} F_1 & = \ frac {1} {\ frac {1} {2} \ frac {1} {\ text {precision}} + \ frac {1} {2} \ frac {1} {\ text {recall}}} \\ & = 2 \ frac {\ text {precision} \ cdot \ text {recall}} {\ text {precision} + \ text {recall}} \ end {align *}
分母に等しく、合計が1の重みを使用する代わりに($ \ frac {1 } {2} $は再現率、$ \ frac {1} {2} $は適合率)、代わりに合計が1であるが、再現率の重みが重みの$ \ beta $倍である重みを割り当てる場合があります。適合率について(再現率の場合は$ \ frac {\ beta} {\ beta + 1} $、適合率の場合は$ \ frac {1} {\ beta + 1} $)。これにより、$ F_ \ beta $スコアの2番目の定義が得られます。
\ begin {align *} F_ \ beta & = \ frac {1} {\ frac {1} {\ beta + 1} \ frac {1} {\ text {precision}} + \ frac {\ beta} {\ beta + 1} \ frac {1} {\ text {recall}}} \\ & =(1+ \ beta)\ frac {\ text {precision} \ cdot \ text {recall}} {\ beta \ cdot \ text {precision} + \ text {recall }} \ end {align *}
ここでも、$ \ beta $の代わりに$ \ beta ^ 2 $を使用した場合、最初の定義に到達するため、2つの定義の違い
コメント
- なぜ$ \ beta $にリコール項ではなく精度項を掛けたのですか?
- “ベータ”ではなくベータ squared に対応する微分計算が新しい回答に含まれている以下。
- @Anwarvic彼らは$ \ beta $に逆リコールを掛けました。 $(1+ \ beta)$を因数分解し、$ \ text {precision} \ cdot \ text {recall} $で展開した後、$ \ beta \ cdot \ text {precision} $の項が残っています
回答
$ \ beta ^ {でFベータスコアを定義する理由2} $ は、特定の定義が与えられた場合に提供する見積もりです(つまり、 $ \ beta $ を再現率の2倍の重要度で添付したい)適合率の
2つの相対的な重要性を定義する特定の方法 $ \ beta ^ {2} $ の定式化につながる指標は、情報検索(Van Rijsbergen、1979)にあります。
定義:ユーザーが適合率と再現率を重視する相対的な重要性は、 $ P / R $ です。 whiでの比率ch $ \ partial {E} / \ partial {R} = \ partial {E} / \ partial {P} $ 、ここで $ E = E(P、R)$ は、適合率と再現率に基づく有効性の尺度です。
この動機存在:
これを定量化するための最も簡単な方法は、 $ P / R $ を指定することです。スパン>適合率の増分を、再現率の同等の損失と交換することをいとわない比率。
これが
\ begin {equation} F = \ frac {1} {(\ frac { \ alpha} {P} + \ frac {1- \ alpha} {R})} \ end {equation}
\ begin {equation } \ partial {F} / \ partial {P} = \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R})^ {2} P ^ { 2}} \ end {equation}
\ begin {equation} \ partial {F} / \ partial {R} = \ frac {1 -\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R})^ {2} R ^ {2}} \ end {equation}
これで、導関数を互いに等しく設定すると、 $ \ alpha $ と比率
\ begin {equation} \ partial {F} / \ partial {P} = \ partial {F} / \ partial {R} \ rightarrow \ frac {\ alpha} {P ^ {2}} = \ frac {1- \ alpha} {R ^ {2}} \ rightarrow \ frac {R} {P } = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ end {equation}
$ \ beta $ をこの比率として、 $ \ alpha $ を再配置すると、 $ \ beta ^ {2}の観点から重みが与えられます。 $ :
\ begin {equation} \ beta = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ rightarrow \ beta ^ {2} = \ frac {1- \ alpha} {\ alpha} \ rightarrow \ beta ^ {2} + 1 = \ frac {1} {\ alpha} \ rightarrow \ alpha = \ frac {1} {\ beta ^ {2} + 1} \ end {equation}
\ begin {equation} 1- \ alpha = 1- \ frac {1 }{\ベータ^ {2} + 1} \ rightarrow \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ end {equation}
次のようになります:
\ begin {equation} F = \ frac {1} {(\ frac {1} {\ beta ^ {2} + 1} \ frac {1} { P} + \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ frac {1} {R})} \ end {equation}
どちらか
したがって、引用された定義を前提として、 $ \ beta $ 回を次のように添付する場合は、並べ替えることができます。精度として思い出すことが非常に重要であるため、 $ \ beta ^ {2} $ 式を使用する必要があります。 $ \ beta $ を使用する場合はこの解釈は当てはまりません。
提案どおりにスコアを定義できます。この場合、 Vic が示しているように、想定する相対的な重要度の定義は次のとおりです。
定義:ユーザーが適合率と再現率を重視する相対的な重要性は、 $ \ partial {E} / \ partial {R} = \ partial {E} / \ $ R = P $ となる部分的な{P} $ の比率。
脚注:
- $ P / R $ は情報検索で使用されますが、これはタイプミスのようです。 Fメジャーの真実(Saski、2007年)を参照してください。
参照:
コメント
- これは受け入れられた回答。
- @Anakhand分子は重みの合計です。 en.wikipedia.org/wiki/Harmonic_mean#Weighted_harmonic_mean
回答
何かをすばやく指摘する。
これは、ベータ値が増加するにつれて、精度をより重視することを意味します。
実際には、逆だと思います。 F-βスコアが優れている場合は、分母を小さくする必要があります。したがって、βを小さくすると、モデルの罰則が少なくなり、精度スコアが高くなります。βを大きくすると、F-βスコアの罰則が大きくなります。精度が高いです。
精度を評価するようにF-βスコアに重みを付ける場合、βは0にする必要があります<β< 1、ここでβ-> 0は適合率のみを評価します(分子は非常に小さくなり、分母の唯一のものは再現率であるため、再現率が増加するとF-βスコアは減少します)。
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html
回答
TLDR; すべてが $ \ beta $ の用語は、実際には $ \ beta ^ 2 $ の用語よりも直感的です。
人の答えは、 $ \ beta ^ {の理由を示すのに適しています。精度と再現率の相対的な重要性を定義するためにVanRijsbergenが選択した方法を考えると、2} $ が表示されます。ただし、ここで主張している「文献に欠けている」という考慮事項があります。選択した定義は直感的でなく不自然であり、実際に $ F_ \ beta $ (実際には)それが定義されている方法では、” $ \ beta $の効果についてすぐに考える必要があります。 は、私が選択した値よりもはるかに積極的であるようです”。
公平を期すために、誤解を招くのは主にWikipediaの要約です。関係する重要性の主観的な尺度について言及することを怠っているのに対し、Van Rijsbergenは単純な定義を提示しただけですが、必ずしも最良または最も意味のある定義ではありません。
VanRijsbergenの選択を確認しましょう。定義:
これを定量化するための最も簡単な方法は、 $ P / R $ を指定することです。スパン>ユーザーが精度の増分を交換する意思がある比率リコールの均等な損失。
一般的に言えば、 $ R / P > \ beta $ の場合、 $ P $ の増加は、の増加よりも影響力があります。 $ R $ に対して、 $ R $ は
以下は、 $ F_ \ beta $ は次のようになります。赤い線は比率
ここで、代替の主観的な定義を示します。これは、精度が高い場合は”に相当します。再現率は同等であり、再現率の改善は、適合率の改善”の
$ P = R $ の場合、 $ \ frac {\ partial {F} / \ partial {R}} {\ partial {F} / \ partial {P}} = \ gamma $ 、ここで $ \ gamma $ は、精度よりも想起における改善の相対的な重要性です。
人の答えで導出された方程式を代入する:
$ \ frac {1- \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R})^ {2} R ^ {2}} = \ gamma \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R})^ {2} P ^ {2}} $
覚えておいてください $ P = R $ 、これは次のように簡略化されます:
$ \ gamma = \ frac {1- \ alpha} {\ alpha} $ および
対照:
$ \ beta ^ 2 = \ frac {1- \ alpha} {\ alpha} $ および
これはどういう意味ですか?非公式の要約:
- VanRijsbergenの定義
$ \ Leftrightarrow $ 再現率は $ \ beta $ 値の点で適合率の2倍重要。 - 提案定義
$ \ Leftrightarrow $ 再現率は $ \ gamma $ の適合率の倍の重要性”>
値の改善に関する。
回答
β^ 2が正確に乗算される理由は、Fスコアを定義する方法にすぎません。これは、ベータ値が増加するにつれて、精度をより重視することを意味します。それをリコールで乗算したい場合は、ベータ値が増加するにつれて、リコールの値が増えることを意味します。
回答
ベータ値が1より大きい場合は、Precisionと比較してモデルのRecallにもっと注意を払う必要があることを意味します。一方、1未満の値は、精度をより重視します。