Dlaczego wynik beta tak definiuje beta?

To jest wynik beta F: $$ F_ \ beta = (1 + \ beta ^ 2) \ cdot \ frac {\ mathrm {precyzja} \ cdot \ mathrm {przypomnieć}} {(\ beta ^ 2 \ cdot \ mathrm {precyzja}) + \ mathrm {przypomnieć}} $$

Artykuł Wikipedii podaje, że $ F_ \ beta $ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision".

Nie wpadłem na pomysł. Po co tak definiować $ \ beta $? Czy mogę zdefiniować $ F_ \ beta $ w ten sposób:

$$ F_ \ beta = (1 + \ beta) \ cdot \ frac {\ mathrm {precyzja} \ cdot \ mathrm {przywróć}} {( \ beta \ cdot \ mathrm {precyzja}) + \ mathrm {przypomnieć}} $$

A jak wyświetlić β times as much importance?

Komentarze

  • Poniżej znajdziesz nowszą odpowiedź, która zawiera rachunek różniczkowy, który dotyczy „, dlaczego Beta do kwadratu a nie Beta „.

Odpowiedź

Pozwalając $ \ beta $ będzie wagą w pierwszej podanej definicji, a $ \ tilde \ beta $ wagą w drugiej, obie definicje są równoważne, gdy ustawisz $ \ tilde \ beta = \ beta ^ 2 $, więc te dwie definicje reprezentują tylko notacyjne różnice w definicji wyniku $ F_ \ beta $. Widziałem, że definiuje zarówno pierwszy sposób (np. Na stronie wikipedii ), jak i drugi (np. tutaj ).

Miarę $ F_1 $ uzyskuje się, biorąc średnią harmoniczną dokładności i pamięci, a mianowicie odwrotność średniej odwrotności dokładności i odwrotności przypomnienia:

\ begin {align *} F_1 & = \ frac {1} {\ frac {1} {2} \ frac {1} {\ text {precyzja}} + \ frac {1} {2} \ frac {1} {\ text {przypomnieć}}} \\ & = 2 \ frac {\ text {Precision} \ cdot \ text {przypomnieć}} {\ text {precyzja} + \ text {przypomnieć}} \ end {align *}

Zamiast używać wag w mianowniku, które są równe i sumują się do 1 ($ \ frac {1 } {2} $ dla przypomnienia i $ \ frac {1} {2} $ dla precyzji), możemy zamiast tego przypisać wagi, które nadal sumują się do 1, ale dla których waga przypomnienia jest $ \ beta $ razy większa od wagi na precyzji ($ \ frac {\ beta} {\ beta + 1} $ dla przypomnienia i $ \ frac {1} {\ beta + 1} $ dla precyzji). W ten sposób otrzymujesz drugą definicję wyniku $ F_ \ beta $:

\ begin {align *} F_ \ beta & = \ frac {1} {\ frac {1} {\ beta + 1} \ frac {1} {\ text {precyzja}} + \ frac {\ beta} {\ beta + 1} \ frac {1} {\ text {przypomnieć}}} \\ & = (1+ \ beta) \ frac {\ text {precyzja} \ cdot \ text {przypomnij}} {\ beta \ cdot \ text {precyzja} + \ text {przypomnij }} \ end {align *}

Ponownie, gdybyśmy użyli $ \ beta ^ 2 $ zamiast $ \ beta $, doszlibyśmy do pierwszej definicji, więc różnice między tymi dwoma definicjami są tylko notacyjne.

Komentarze

  • dlaczego pomnożono $ \ beta $ przez termin precyzyjny zamiast terminu przypominającego?
  • Rachunek różniczkowy, który dotyczy „, dlaczego Beta do kwadratu , a nie Beta ” jest zawarty w nowszej odpowiedzi poniżej.
  • @Anwarvic Pomnożono $ \ beta $ przez odwrotne odwołanie. Po wyodrębnieniu $ (1+ \ beta) $ i rozwinięciu przez $ \ text {precyzja} \ cdot \ text {przypomnij} $ pozostało $ \ beta \ cdot \ text {precyzja} $ termin

Odpowiedź

Powód zdefiniowania wyniku F-beta za pomocą $ \ beta ^ { 2} $ to dokładnie cytat, który podasz (tj. Chcesz dołączyć $ \ beta $ razy tyle ważne, aby przypomnieć sobie dokładność), biorąc pod uwagę określoną definicję co to znaczy dołączyć $ \ beta $ razy większą wagę do zapamiętania niż precyzji.

Szczególny sposób definiowania względnego znaczenia tych dwóch metryki prowadzące do sformułowania $ \ beta ^ {2} $ można znaleźć w Information Retrieval (Van Rijsbergen, 1979):

Definicja: Względna waga, jaką użytkownik przywiązuje do precyzji i zapamiętywania, to $ P / R $ stosunek w whi ch $ \ Partial {E} / \ Partial {R} = \ Partial {E} / \ Partial {P} $ , gdzie $ E = E (P, R) $ jest miarą skuteczności opartą na precyzji i zapamiętaniu.

Motywacja do tego istota:

Najprostszym sposobem, jaki znam na kwantyfikację tego, jest określenie $ P / R $ współczynnik rozpiętości>, przy którym użytkownik jest skłonny wymienić wzrost precyzji na równą utratę pamięci.

Aby zobaczyć, że prowadzi to do sformułowania $ \ beta ^ {2} $ , można zacząć od ogólnego wzoru na ważoną średnią harmoniczną $ P $ i $ R $ i obliczyć ich częściowe pochodne w odniesieniu do $ P $ i $ R $ . Cytowane źródło wykorzystuje $ E $ (dla ” miary efektywności „) , czyli po prostu $ 1-F $ , a wyjaśnienie jest równoważne niezależnie od tego, czy rozważymy $ E $ czy $ F $ .

\ begin {equation} F = \ frac {1} {(\ frac { \ alpha} {P} + \ frac {1- \ alpha} {R})} \ end {equation}

\ begin {equation } \ częściowe {F} / \ częściowe {P} = \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ { 2}} \ end {equation}

\ begin {equation} \ Partial {F} / \ Partial {R} = \ frac {1 – \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} \ end {equation}

Teraz ustawienie pochodnych równych sobie nakłada ograniczenie na relację między $ \ alpha $ a stosunkiem $ P / R $ . Biorąc pod uwagę, że chcemy dołączyć $ \ beta $ razy większą wagę do zapamiętania niż precyzję, rozważymy stosunek $ R / P $ 1 :

\ begin {equation} \ Partial {F} / \ Partial {P} = \ częściowe {F} / \ częściowe {R} \ rightarrow \ frac {\ alpha} {P ^ {2}} = \ frac {1- \ alpha} {R ^ {2}} \ rightarrow \ frac {R} {P } = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ end {equation}

Definiowanie $ \ beta $ jako ten współczynnik i zmiana układu dla $ \ alpha $ daje wagi w kategoriach $ \ beta ^ {2} $ :

\ begin {equation} \ beta = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ rightarrow \ beta ^ {2} = \ frac {1- \ alpha} {\ alpha} \ rightarrow \ beta ^ {2} + 1 = \ frac {1} {\ alpha} \ rightarrow \ alpha = \ frac {1} {\ beta ^ {2} + 1} \ end {equation}

\ begin {equation} 1 – \ alpha = 1 – \ frac {1 } {\ beta ^ {2} + 1} \ rightarrow \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ end {equation}

Otrzymujemy:

\ begin {equation} F = \ frac {1} {(\ frac {1} {\ beta ^ {2} + 1} \ frac {1} { P} + \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ frac {1} {R})} \ end {equation}

Który można zmienić kolejność, aby nadać formularz w pytaniu.

Zatem, biorąc pod uwagę cytowaną definicję, jeśli chcesz dołączyć $ \ beta $ razy jako bardzo ważne, aby przypomnieć sobie jako precyzję, należy użyć sformułowania $ \ beta ^ {2} $ . Ta interpretacja nie obowiązuje, jeśli używa się $ \ beta $ .

Możesz zdefiniować wynik zgodnie z sugestią. W tym przypadku, jak pokazał Vic , definicja względnej ważności, jaką można przyjąć, jest następująca:

Definicja: Względna waga, jaką użytkownik przywiązuje do precyzji i zapamiętywania, to $ \ Partial {E} / \ Partial {R} = \ Partial {E} / \ częściowy współczynnik {P} $ , przy którym $ R = P $ .

Przypisy:

  1. $ P / R $ jest używany w Information Retrieval , ale wydaje się, że jest to literówka, patrz The Truth of F-measure (Saski, 2007).

Referencje:

  1. C. J. Van Rijsbergen. 1979. Information Retrieval (wyd. 2), str. 133-134
  2. Y. Sasaki. 2007. „The Truth of F-measure”, nauczanie, materiały do samouczków

Komentarze

Odpowiedź

Aby szybko coś wskazać.

Oznacza to, że wraz ze wzrostem wartości beta bardziej cenisz precyzję.

Myślę, że jest odwrotnie – ponieważ wyższa jest lepiej w punktacji F-β, chcesz, aby mianownik był mały. Dlatego jeśli zmniejszysz β, model będzie mniej karany za dobry wynik precyzji. Jeśli zwiększysz β, wynik F-β jest bardziej karany, gdy precyzja jest wysoka.

Jeśli chcesz zważyć punktację F-β, tak aby określała dokładność, β powinno wynosić 0 < β < 1, gdzie β-> 0 wartości tylko precyzja (licznik staje się bardzo mały, a jedyną rzeczą w mianowniku jest przypominanie, więc wynik F-β maleje wraz ze wzrostem rozpoznawalności).

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html

Odpowiedź

TLDR; W przeciwieństwie do literatury, która odwołuje się do dowolnej proponowanej definicji, użycie $ \ beta $ termin taki jak sugeruje OP jest w rzeczywistości bardziej intuicyjny niż termin $ \ beta ^ 2 $ .

Odpowiedź Osoby „dobrze pokazuje, dlaczego $ \ beta ^ { 2} $ pojawia się, biorąc pod uwagę wybrany przez Van Rijsbergena sposób zdefiniowania względnego znaczenia precyzji i zapamiętania. Jest jednak pewna uwaga, której „brakuje w literaturze, co tutaj argumentuję: wybrana definicja jest nieintuicyjna i nienaturalna, a jeśli faktycznie użyłeś $ F_ \ beta $ (w praktyce) tak, jak jest to zdefiniowane, szybko byś pomyślał, ” efekt $ \ beta $ wydaje się o wiele bardziej agresywne niż wybrana przeze mnie wartość „.

Aby być uczciwym, mylące jest głównie podsumowanie Wikipedii, ponieważ nie wspomina o subiektywnej miary ważności, podczas gdy Van Rijsbergen przedstawił jedynie możliwą definicję, która była prosta, ale niekoniecznie najlepsza lub najbardziej znacząca.

Powtórzmy wybór Van Rijsbergena definicja:

Najprostszym sposobem kwantyfikacji tego, jaki znam, jest określenie $ P / R $ stosunek rozpiętości>, przy którym użytkownik jest skłonny wymienić się na zwiększenie precyzji równa strata w zapamiętywaniu.

Ogólnie rzecz biorąc, jeśli $ R / P > \ beta $ to wzrost $ P $ ma większy wpływ niż wzrost $ R $ , podczas gdy $ R $ ma większy wpływ niż $ P $ , gdzie $ R / P < \ beta $ . Ale oto dlaczego argumentowałbym, że waga jest nieintuicyjna. Gdy $ P = R $ , rośnie $ R $ $ \ beta ^ 2 $ razy bardziej skuteczne niż $ P $ . (Może to można obliczyć na podstawie częściowych pochodnych podanych w odpowiedzi Osoby .) Gdy ktoś mówi ” Chcę przypomnieć być ważony 3x ważniejszy niż precyzja „, nie przeskoczyłbym do definicji, która odpowiada ” precyzja będzie karana, dopóki nie dosłownie jedna trzecia wartości przypomnienia ” i na pewno nie spodziewałbym się, że gdy precyzja i rozpoznawalność są równe, przywołanie przyczynia się 9-krotnie więcej. Nie wydaje się to praktyczne w większości sytuacji, w których idealnie chcesz, aby zarówno precyzja, jak i pamięć były wysokie, a tylko jedna była nieco wyższa od drugiej.

Poniżej znajduje się wizualna reprezentacja tego, co $ F_ \ beta $ wygląda tak. Czerwone linie podkreślają stosunek $ R / P = \ beta $ i że częściowe pochodne $ F_ \ beta $ są równe w tym stosunku, co pokazują ciągłe czerwone zbocza. tutaj wprowadź opis obrazu

Przedstawię teraz alternatywną subiektywną definicję, która równa się „, gdy precyzja i zapamiętywanie są równe, poprawa rozpoznawania jest warta $ \ gamma $ razy więcej niż poprawa precyzji „. Twierdzę, że ta definicja jest bardziej intuicyjna, a jednocześnie równie prosta jak definicja Van Rijsbergena:

Gdy $ P = R $ , ustaw $ \ frac {\ Partial {F} / \ Partial {R}} {\ Partial {F} / \ Partial {P}} = \ gamma $ , gdzie $ \ gamma $ to względne znaczenie ulepszeń w przywracaniu nad dokładnością.

Zastępowanie równań uzyskanych w odpowiedzi Osoby :

$ \ frac {1- \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} = \ gamma \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ {2}} $

Pamiętając o tym $ P = R $ , upraszcza to do:

$ \ gamma = \ frac {1- \ alpha} {\ alpha} $ i $ \ alpha = \ frac {1} {\ gamma + 1} $ ,

w przeciwieństwie do:

$ \ beta ^ 2 = \ frac {1- \ alpha} {\ alpha} $ i $ \ alpha = \ frac {1} {\ beta ^ 2 + 1} $ zgodnie z formułą Van Rijsbergena.

Co to oznacza? Nieformalne podsumowanie:

  • Definicja Van Rijsbergena $ \ Leftrightarrow $ to $ \ beta $ razy tak ważne jak precyzja pod względem wartości .
  • Moja propozycja definicja $ \ Leftrightarrow $ odwołanie jest $ \ gamma $ razy ważniejsze niż precyzja pod względem poprawy wartości .
  • Obie definicje są oparte na ważonej średniej harmonicznej precyzji i pamięci, a wagi te dwie definicje można odwzorować. W szczególności umieszczenie $ \ beta = \ sqrt {\ gamma} $ razy ważność pod względem wartości jest równoważne umieszczeniu $ \ gamma $ razy większe znaczenie pod względem poprawy wartości.
  • Można z pewnością argumentować, że użycie $ \ beta $ zamiast $ \ beta ^ 2 $ jest bardziej intuicyjną wagą.

Odpowiedź

Przyczyną mnożenia β ^ 2 z dokładnością jest sposób definiowania wyników F. Oznacza to, że wraz ze wzrostem wartości beta bardziej cenisz precyzję. Gdybyś chciał pomnożyć to przez zapamiętywanie, które również by zadziałało, oznaczałoby to po prostu, że wraz ze wzrostem wartości beta przywołujesz więcej.

Odpowiedź

Wartość beta większa niż 1 oznacza, że chcemy, aby nasz model zwracał większą uwagę na model Recall niż na Precision. Z drugiej strony wartość mniejsza niż 1 kładzie większy nacisk na precyzję.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *