De ce scorul f beta definește beta așa?

Acesta este scorul F beta: $$ F_ \ beta = (1 + \ beta ^ 2) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {(\ beta ^ 2 \ cdot \ mathrm {precision}) + \ mathrm {recall}} $$

Articolul Wikipedia afirmă că $ F_ \ beta $ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision".

Nu am primit ideea. De ce să definiți $ \ beta $ așa? Pot defini $ F_ \ beta $ astfel:

$$ F_ \ beta = (1 + \ beta) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {( \ beta \ cdot \ mathrm {precision}) + \ mathrm {recall}} $$

Și cum se afișează β times as much importance?

Comentarii

  • Consultați mai jos un răspuns mai nou care include calculul diferențial care se adresează ” de ce Beta pătrat și nu Beta „.

Răspuns

Leasing $ \ beta $ să fie greutatea din prima definiție pe care o furnizați și $ \ tilde \ beta $ greutatea în a doua, cele două definiții sunt echivalente când setați $ \ tilde \ beta = \ beta ^ 2 $, deci aceste două definiții reprezintă numai diferențele de notare în definiția scorului $ F_ \ beta $. L-am văzut definind atât primul mod (de ex. Pe pagina wikipedia ), cât și al doilea (de ex. aici ).

Măsura $ F_1 $ se obține prin luarea mediei armonice de precizie și rechemare, și anume reciprocitatea mediei reciprocului de precizie și reciprocitatea rechemării:

\ begin {align *} F_1 & = \ frac {1} {\ frac {1} {2} \ frac {1} {\ text {precision}} + \ frac {1} {2} \ frac {1} {\ text {recall}}} \\ & = 2 \ frac {\ text {precision} \ cdot \ text {recall}} {\ text {precision} + \ text {recall}} \ end {align *}

În loc să folosiți greutăți în numitor care sunt egale și însumează 1 ($ \ frac {1 } {2} $ pentru rechemare și $ \ frac {1} {2} $ pentru precizie), s-ar putea să atribuim în schimb greutăți care însumează încă 1, dar pentru care greutatea la rechemare este de $ \ beta $ ori mai mare decât greutatea cu precizie ($ \ frac {\ beta} {\ beta + 1} $ pentru rechemare și $ \ frac {1} {\ beta + 1} $ pentru precizie). Aceasta produce a doua definiție a scorului $ F_ \ beta $:

\ begin {align *} F_ \ beta & = \ frac {1} {\ frac {1} {\ beta + 1} \ frac {1} {\ text {precision}} + \ frac {\ beta} {\ beta + 1} \ frac {1} {\ text {recall}}} \\ & = (1+ \ beta) \ frac {\ text {precision} \ cdot \ text {recall}} {\ beta \ cdot \ text {precision} + \ text {recall }} \ end {align *}

Din nou, dacă am fi folosit $ \ beta ^ 2 $ în loc de $ \ beta $ aici am fi ajuns la prima dvs. definiție, deci diferențele dintre cele două definiții sunt doar notaționale.

Comentarii

  • de ce au înmulțit $ \ beta $ cu termenul de precizie în loc de termenul de rechemare?
  • Calculul diferențial care se adresează ” de ce Beta pătrat și nu Beta ” este inclus într-un răspuns mai nou mai jos.
  • @Anwarvic Au înmulțit $ \ beta $ cu reamintirea inversă . După luarea în calcul a $ (1+ \ beta) $ și extinderea cu $ \ text {precision} \ cdot \ text {recall} $ rămâne un termen $ \ beta \ cdot \ text {precision} $

Răspuns

Motivul definirii scorului F-beta cu $ \ beta ^ { 2} $ este exact cotația pe care o furnizați (adică dorind să atașați $ \ beta $ de ori mai mare importanță de reamintit ca precizie) dată o definiție specială pentru ce înseamnă să atașezi $ \ beta $ de ori mai mare importanță de reamintit decât precizie.

Modul particular de a defini importanța relativă a celor două valorile care conduc la formularea $ \ beta ^ {2} $ pot fi găsite în Recuperarea informațiilor (Van Rijsbergen, 1979):

Definiție: importanța relativă pe care un utilizator o acordă preciziei și reamintirii este $ P / R $ raport la whi ch $ \ partial {E} / \ partial {R} = \ partial {E} / \ partial {P} $ , unde $ E = E (P, R) $ este măsura eficacității bazată pe precizie și rechemare.

Motivația pentru aceasta fiind:

Cel mai simplu mod pe care îl cunosc de cuantificare este să specific $ P / R $ raport la care utilizatorul este dispus să tranzacționeze o creștere a preciziei pentru o pierdere egală în rechemare.

Pentru a vedea că acest lucru duce la formularea $ \ beta ^ {2} $ poate începe cu formula generală pentru media armonică ponderată a $ P $ și $ R $ și poate calcula derivate parțiale cu privire la $ P $ și $ R $ . Sursa citată utilizează $ E $ (pentru ” măsura eficacității „) , care este doar $ 1-F $ și explicația este echivalentă indiferent dacă luăm în considerare $ E $ sau $ F $ .

\ begin {equation} F = \ frac {1} {(\ frac { \ alpha} {P} + \ frac {1- \ alpha} {R})} \ end {ecuație}

\ begin {ecuație } \ partial {F} / \ partial {P} = \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ { 2}} \ end {ecuație}

\ begin {ecuație} \ partial {F} / \ partial {R} = \ frac {1 – \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} \ end {ecuație}

Acum, setarea derivatelor egale una cu alta pune o restricție asupra relației dintre $ \ alpha $ și raportul $ P / R $ . Având în vedere că dorim să atașăm $ \ beta $ de ori mai mare importanță de amintit ca precizie, vom lua în calcul raportul $ R / P $ 1 :

\ begin {equation} \ partial {F} / \ partial {P} = \ partial {F} / \ partial {R} \ rightarrow \ frac {\ alpha} {P ^ {2}} = \ frac {1- \ alpha} {R ^ {2}} \ rightarrow \ frac {R} {P } = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ end {ecuație}

Definirea $ \ beta $ deoarece acest raport și rearanjarea pentru $ \ alpha $ oferă ponderările în termeni de $ \ beta ^ {2} $ :

\ begin {ecuație} \ beta = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ rightarrow \ beta ^ {2} = \ frac {1- \ alpha} {\ alpha} \ rightarrow \ beta ^ {2} + 1 = \ frac {1} {\ alpha} \ rightarrow \ alpha = \ frac {1} {\ beta ^ {2} + 1} \ end {ecuație}

\ begin {ecuație} 1 – \ alpha = 1 – \ frac {1 } {\ beta ^ {2} + 1} \ rightarrow \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ end {ecuație}

Obținem:

\ begin {equation} F = \ frac {1} {(\ frac {1} {\ beta ^ {2} + 1} \ frac {1} { P} + \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ frac {1} {R})} \ end {ecuație}

Care poate fi rearanjat pentru a da formularul din întrebarea dvs.

Astfel, având în vedere definiția citată, dacă doriți să atașați $ \ beta $ ori ca multă importanță de reamintit ca precizie, atunci ar trebui folosită formularea $ \ beta ^ {2} $ . Această interpretare nu este valabilă dacă se folosește $ \ beta $ .

Puteți defini un scor așa cum sugerați. În acest caz, așa cum a demonstrat Vic , definiția pentru importanța relativă pe care ați fi presupusă este:

Definiție: importanța relativă pe care un utilizator o acordă preciziei și reamintirii este $ \ partial {E} / \ partial {R} = \ partial {E} / \ raport parțial {P} $ la care $ R = P $ .

Note de subsol:

  1. $ P / R $ este utilizat în Recuperarea informațiilor , dar acesta pare a fi o greșeală de tipar, consultați Adevărul măsurii F (Saski, 2007).

Referințe:

  1. C. J. Van Rijsbergen. 1979. Information Retrieval (ediția a doua), pp.133-134
  2. Y. Sasaki. 2007. „Adevărul măsurii F”, materiale didactice, didactice

Comentarii

Răspuns

Pentru a indica ceva rapid.

Înseamnă că, pe măsură ce crește valoarea beta, prețuiți mai mult precizia.

De fapt, cred că este opusul – deoarece mai mare este mai bine în punctajul F-β, doriți ca numitorul să fie mic. Prin urmare, dacă reduceți β, atunci modelul este pedepsit mai puțin pentru că are un scor de precizie bun. Dacă creșteți β, atunci scorul F-β este pedepsit mai mult atunci când precizia este mare.

Dacă doriți să cântăriți scorul F-β astfel încât să prețuiască precizia, β ar trebui să fie 0 < β < 1, unde β-> 0 valorează doar precizia (numeratorul devine foarte mic și singurul lucru din numitor este rechemarea, deci scorul F-β scade odată cu creșterea rechemării).

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html

Răspuns

TLDR; Contrar literaturii, toate urmărind o definiție propusă arbitrar, utilizând un termenul $ \ beta $ așa cum sugerează OP este de fapt mai intuitiv decât termenul $ \ beta ^ 2 $ .

Răspunsul unei persoane face bine pentru a arăta de ce $ \ beta ^ { 2} $ apare, având în vedere modul ales de Van Rijsbergen de a defini importanța relativă a preciziei și a rechemării. Cu toate acestea, există o considerație care lipsește în literatură, pe care o argumentez aici: definiția aleasă este neintuitivă și nefirească și dacă ați folosit de fapt $ F_ \ beta $ (în practică) așa cum este definit, ați fi lăsat rapid să gândiți, ” efectul $ \ beta $ pare mult mai agresiv decât valoarea pe care am „ales-o „.

Pentru a fi corect, în general, rezumatul Wikipedia este înșelător, deoarece neglijează menționarea măsurii subiective a importanței implicate, în timp ce Van Rijsbergen a prezentat doar o posibilă definiție simplă, dar nu neapărat cea mai bună sau cea mai semnificativă.

Să revizuim alegerea lui Van Rijsbergen definiție:

Cel mai simplu mod pe care îl cunosc de cuantificare este să specific $ P / R $ raport la care utilizatorul este dispus să tranzacționeze o creștere a preciziei pentru o pierdere egală în rechemare.

În general, dacă $ R / P > \ beta $ atunci o creștere a $ P $ este mai influentă decât o creștere a $ R $ , în timp ce $ R $ este mai influent decât $ P $ unde $ R / P < \ beta $ . Dar iată de ce aș argumenta că ponderarea nu este intuitivă. Când $ P = R $ , crește în $ R $ sunt $ \ beta ^ 2 $ de ori mai eficiente ca $ P $ . (Acest lucru poate să fie calculat din derivatele parțiale furnizate în răspunsul O persoană .) Când cineva spune ” să fie ponderat de 3 ori mai important decât precizia „, nu aș trece la definiția care echivalează cu ” precizia va fi penalizată până când va fi literalmente o treime din valoarea rechemării ” și cu siguranță nu m-aș aștepta ca atunci când precizia și rechemarea sunt egale, rechemarea contribuie de 9 ori la fel. Acest lucru nu pare practic în majoritatea situațiilor în care în mod ideal doriți ca precizia și amintirea să fie ridicate, doar una să fie puțin mai înaltă decât cealaltă.

Mai jos este o reprezentare vizuală a ceea ce $ F_ \ beta $ arată. Liniile roșii evidențiază raportul $ R / P = \ beta $ și că parțialul derivatele $ F_ \ beta $ sunt egale la acel raport, arătat de pantele roșii solide. introduceți descrierea imaginii aici

Voi prezenta acum o definiție subiectivă alternativă, care echivalează cu ” când precizia și reamintirea sunt egale, îmbunătățirile reamintirii valorează $ \ gamma $ de ori mai mult decât îmbunătățirile de precizie „. Susțin că această definiție este mai intuitivă, fiind la fel de simplă ca și definiția lui Van Rijsbergen:

Când $ P = R $ , setați $ \ frac {\ partial {F} / \ partial {R}} {\ partial {F} / \ partial {P}} = \ gamma $ , unde $ \ gamma $ este importanța relativă a îmbunătățirilor în rechemarea asupra preciziei.

Înlocuirea ecuațiilor derivate în Răspunsul unei persoane :

$ \ frac {1- \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} = \ gamma \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ {2}} $

Ținând minte asta $ P = R $ , acest lucru se simplifică la:

$ \ gamma = \ frac {1- \ alpha} {\ alpha} $ și $ \ alpha = \ frac {1} {\ gamma + 1} $ ,

în contrast cu:

$ \ beta ^ 2 = \ frac {1- \ alpha} {\ alpha} $ și $ \ alpha = \ frac {1} {\ beta ^ 2 + 1} $ sub formularea lui Van Rijsbergen.

Ce înseamnă asta? Un rezumat informal:

  • Definiția lui Van Rijsbergen $ \ Leftrightarrow $ rechemarea este $ \ beta $ de ori mai important ca precizia în termeni de valoare .
  • Propunerea mea reamintirea $ \ Leftrightarrow $ este $ \ gamma $ de ori mai importantă ca precizia în ceea ce privește îmbunătățirile valorii .
  • Ambele definiții se bazează pe o medie armonică ponderată de precizie și rechemare și pe ponderile de sub aceste două definiții pot fi mapate. Mai exact, plasarea $ \ beta = \ sqrt {\ gamma} $ ori importanță în termeni de valoare este echivalentă cu plasarea $ \ gamma $ ori de importanță în ceea ce privește îmbunătățirea valorii.
  • Se poate argumenta în mod defensiv că utilizarea unui $ \ beta $ termen în loc de $ \ beta ^ 2 $ este o pondere mai intuitivă.

Răspuns

Motivul pentru care β ^ 2 este multiplicat cu precizie este doar modul în care sunt definite scorurile F. Înseamnă că pe măsură ce crește valoarea beta, prețuiți mai mult precizia. Dacă ați dori să-l multiplicați cu reamintire care ar funcționa, ar însemna doar că, pe măsură ce crește valoarea beta, veți reaminti mai mult. „>

Valoarea beta mai mare de 1 înseamnă că dorim ca modelul nostru să acorde mai multă atenție modelului Recall în comparație cu Precision. Pe de altă parte, o valoare mai mică de 1 pune mai mult accent pe precizie.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *