Detta är F-betapoängen: $$ F_ \ beta = (1 + \ beta ^ 2) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {(\ beta ^ 2 \ cdot \ mathrm {precision}) + \ mathrm {recall}} $$
The Wikipedia-artikel säger att $ F_ \ beta $ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision"
.
Jag fick inte idén. Varför definiera $ \ beta $ så? Kan jag definiera $ F_ \ beta $ så här:
$$ F_ \ beta = (1 + \ beta) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {( \ beta \ cdot \ mathrm {precision}) + \ mathrm {recall}} $$
Och hur visar du β times as much importance
?
Kommentarer
- Kolla in ett nyare svar nedan som innehåller differentialräkningen som adresserar ” varför Beta kvadrerade och inte Beta ”.
Svar
Låter $ \ beta $ är vikten i den första definitionen du anger och $ \ tilde \ beta $ vikten i den andra, de två definitionerna är ekvivalenta när du ställer in $ \ tilde \ beta = \ beta ^ 2 $, så dessa två definitioner representerar endast notationsskillnader i definitionen av $ F_ \ beta $ poäng. Jag har sett att det definierade både det första sättet (t.ex. på wikipedia-sidan ) och det andra (t.ex. här ).
Måttet $ F_1 $ erhålls genom att man tar det harmoniska medelvärdet av precision och återkallelse, nämligen det ömsesidiga av genomsnittet av det ömsesidiga av precision och det ömsesidiga av återkallandet: >
\ begin {align *} F_1 & = \ frac {1} {\ frac {1} {2} \ frac {1} {\ text {precision}} + \ frac {1} {2} \ frac {1} {\ text {recall}}} \\ & = 2 \ frac {\ text {precision} \ cdot \ text {recall}} {\ text {precision} + \ text {remember}} \ end {align *}
I stället för att använda vikter i nämnaren som är lika och summerar till 1 ($ \ frac {1 } {2} $ för återkallning och $ \ frac {1} {2} $ för precision), vi kan istället tilldela vikter som fortfarande uppgår till 1 men för vilka vikten vid återkallning är $ \ beta $ gånger så stor som vikten på precision ($ \ frac {\ beta} {\ beta + 1} $ för återkallning och $ \ frac {1} {\ beta + 1} $ för precision). Detta ger din andra definition av $ F_ \ beta $ poäng:
\ begin {align *} F_ \ beta & = \ frac {1} {\ frac {1} {\ beta + 1} \ frac {1} {\ text {precision}} + \ frac {\ beta} {\ beta + 1} \ frac {1} {\ text {återkall}}} \\ & = (1+ \ beta) \ frac {\ text {precision} \ cdot \ text {återkallande}} {\ beta \ cdot \ text {precision} + \ text {återkallande }} \ end {align *}
Om vi hade använt $ \ beta ^ 2 $ istället för $ \ beta $ här hade vi kommit fram till din första definition, så skillnaderna mellan de två definitionerna är bara notationella.
Kommentarer
- varför multiplicerade de $ \ beta $ med precisionsuttrycket istället för återkallelseperioden?
- Differentialräkningen som adresserar ” varför Beta kvadrat och inte Beta ” ingår i ett nyare svar nedan.
- @Anwarvic De multiplicerade $ \ beta $ med inversen -minnet. Efter att ha räknat ut $ (1+ \ beta) $ och expanderat med $ \ text {precision} \ cdot \ text {återkallande} $ finns det en $ \ beta \ cdot \ text {precision} $ term kvar
Svar
Anledningen till att definiera F-beta-poäng med $ \ beta ^ { 2} $ är exakt citatet du ger (dvs. vill bifoga $ \ beta $ gånger så mycket vikt att återkalla som precision) med en specifik definition för vad det innebär att fästa $ \ beta $ gånger så mycket vikt att återkalla än precision.
Det speciella sättet att definiera den relativa betydelsen av de två mätvärden som leder till $ \ beta ^ {2} $ -formulering finns i Information Retrieval (Van Rijsbergen, 1979):
Definition: Den relativa betydelsen som en användare lägger till precision och återkallande är $ P / R $ förhållande vid whi ch $ \ partial {E} / \ partial {R} = \ partial {E} / \ partial {P} $ , där $ E = E (P, R) $ är måttet på effektivitet baserat på precision och återkallande.
Motivationen för detta being:
Det enklaste sättet jag vet att kvantifiera detta är att ange $ P / R $ förhållande där användaren är villig att byta ett steg i precision för lika förlust i återkallelse.
För att se att detta leder till $ \ beta ^ {2} $ formuleringen kan börja med den allmänna formeln för det viktade harmoniska medelvärdet av $ P $ och $ R $ och beräkna deras partiella derivat med avseende på $ P $ och $ R $ . Den angivna källan använder $ E $ (för ” effektivitetsmått ”) , som bara är $ 1-F $ och förklaringen är ekvivalent om vi anser att $ E $ eller $ F $ .
\ begin {ekvation} F = \ frac {1} {(\ frac { \ alpha} {P} + \ frac {1- \ alpha} {R})} \ slut {ekvation}
\ begin {ekvation } \ partial {F} / \ partial {P} = \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ { 2}} \ end {ekvation}
\ begin {ekvation} \ partiell {F} / \ partiell {R} = \ frac {1 – \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} \ end {ekvation}
Om du ställer in derivaten lika med varandra, begränsas förhållandet mellan $ \ alpha $ och förhållandet $ P / R $ . Med tanke på att vi vill fästa $ \ beta $ gånger så mycket vikt att återkalla som precision kommer vi att betrakta förhållandet $ R / P $ 1 :
\ begin {ekvation} \ partiell {F} / \ partiell {P} = \ partiell {F} / \ partiell {R} \ rightarrow \ frac {\ alpha} {P ^ {2}} = \ frac {1- \ alpha} {R ^ {2}} \ rightarrow \ frac {R} {P } = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ end {ekvation}
Definiera $ \ beta $ eftersom detta förhållande och omarrangemang för $ \ alpha $ ger vikterna i termer av $ \ beta ^ {2} $ :
\ begin {ekvation} \ beta = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ rightarrow \ beta ^ {2} = \ frac {1- \ alpha} {\ alpha} \ rightarrow \ beta ^ {2} + 1 = \ frac {1} {\ alpha} \ rightarrow \ alpha = \ frac {1} {\ beta ^ {2} + 1} \ end {ekvation}
\ begin {ekvation} 1 – \ alpha = 1 – \ frac {1 }{\beta ^ {2} + 1} \ rightarrow \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ end {ekvation}
Vi får:
\ begin {ekvation} F = \ frac {1} {(\ frac {1} {\ beta ^ {2} + 1} \ frac {1} { P} + \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ frac {1} {R})} \ end {ekvation}
Vilken kan ordnas om för att ge formuläret i din fråga.
Således, med den angivna definitionen, om du vill bifoga $ \ beta $ gånger som mycket viktigt att komma ihåg som precision, då ska $ \ beta ^ {2} $ formuleringen användas. Denna tolkning gäller inte om man använder $ \ beta $ .
Du kan definiera en poäng som du föreslår. I det här fallet, som Vic har visat, är definitionen för den relativa betydelse du skulle anta:
Definition: Den relativa betydelse som en användare lägger till precision och återkallande är $ \ partial {E} / \ partial {R} = \ partial {E} / \ partiellt {P} $ förhållande där $ R = P $ .
Fotnoter:
- $ P / R $ används i Informationshämtning men detta verkar vara ett stavfel, se Sanningen om F-mått (Saski, 2007).
Referenser:
- C. J. Van Rijsbergen. 1979. Informationshämtning (2: a upplagan), s.133-134
- Y. Sasaki. 2007. ”Sanningen om F-mått”, undervisning, läromedel
Kommentarer
- Detta borde vara accepterat svar.
- @Anakhand Täljaren är summan av vikterna, se sv.wikipedia.org/wiki/Harmonic_mean#Weighted_harmonic_mean
Svar
Att påpeka något snabbt.
Det betyder att när beta-värdet ökar, värderar du mer precision.
Jag tror faktiskt att det är tvärtom – eftersom högre är bättre i F-β-poäng, vill du att nämnaren ska vara liten. Om du minskar β, så straffas modellen mindre för att ha en bra precisionspoäng. Om du ökar β straffas F-β-poängen mer när precisionen är hög.
Om du vill väga F-β-poängen så att den värderar precision, ska β vara 0 < β < 1, där β-> 0 bara värderar precision (täljaren blir väldigt liten, och det enda i nämnaren är återkallande, så F-β-poängen minskar när återkallningen ökar).
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html
Svar
TLDR; I motsats till litteraturen som alla spårar tillbaka till en godtycklig föreslagen definition med en $ \ beta $ term som OP antyder är faktiskt mer intuitiv än $ \ beta ^ 2 $ term.
En persons svar är bra att visa varför $ \ beta ^ { 2} $ dyker upp, med tanke på att Van Rijsbergens valda sätt att definiera den relativa betydelsen av precision och återkallelse. Det finns dock en övervägning som saknas i litteraturen, som jag argumenterar här: den valda definitionen är ointuitiv och onaturlig, och om du faktiskt använde $ F_ \ beta $ (i praktiken) hur det definieras skulle du snabbt tänka, ” effekten av $ \ beta $ verkar mycket aggressivare än det värde jag ”har valt ”.
För att vara rättvis är det mest Wikipedia-sammanfattningen som är vilseledande, eftersom det försummar att nämna det subjektiva måttet på betydelse, medan Van Rijsbergen bara presenterade en möjlig definition som var enkel men inte nödvändigtvis den bästa eller mest meningsfulla.
Låt oss granska Van Rijsbergens val av definition:
Det enklaste sättet jag vet att kvantifiera detta är att specificera $ P / R $ förhållande där användaren är villig att byta ett steg i precision för lika stor förlust i minnet.
Generellt sett, om $ R / P > \ beta $ är en ökning av $ P $ mer inflytelserik än en ökning av $ R $ , medan $ R $ är mer inflytelserik än $ P $ där $ R / P < \ beta $ . Men här skulle jag hävda att viktningen inte är intuitiv. När $ P = R $ ökar i $ R $ är $ \ beta ^ 2 $ gånger så effektiva som $ P $ . (Detta kan beräknas från delderivaten i En persons svar.) När någon säger ” vill jag komma ihåg att vägas 3 gånger viktigare än precision ”, jag skulle inte hoppa till definitionen som motsvarar ” precision kommer att straffas förrän den ”s bokstavligen en tredjedel av värdet av återkallande ”, och jag skulle verkligen inte förvänta mig att när precision och återkallande är lika, återkallande bidrar 9 gånger lika mycket. Det verkar inte vara praktiskt i de flesta situationer där du helst vill att både precision och återkallande ska vara hög, bara en för att vara lite högre än den andra.
Nedan visas en visuell representation av vad $ F_ \ beta $ ser ut. De röda linjerna markerar förhållandet $ R / P = \ beta $ och att den partiella derivat av $ F_ \ beta $ är lika med det förhållandet, visas av de solida röda sluttningarna.
Jag presenterar nu en alternativ subjektiv definition som motsvarar ” när precision och återkallande är lika, förbättringar i återkallning är värda $ \ gamma $ gånger mer än förbättringar i precision ”. Jag hävdar att denna definition är mer intuitiv samtidigt som den är lika enkel som Van Rijsbergens definition:
När $ P = R $ , ställ in $ \ frac {\ partial {F} / \ partial {R}} {\ partial {F} / \ partial {P}} = \ gamma $ , där $ \ gamma $ är den relativa vikten av förbättringar i minnet över precision.
Ersätter ekvationer härledda från En persons svar:
$ \ frac {1- \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} = \ gamma \ frac {\ alfa} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ {2}} $
Kom ihåg att $ P = R $ , detta förenklar till:
$ \ gamma = \ frac {1- \ alpha} {\ alpha} $ och $ \ alpha = \ frac {1} {\ gamma + 1} $ ,
kontrasterat med:
$ \ beta ^ 2 = \ frac {1- \ alpha} {\ alpha} $ och $ \ alpha = \ frac {1} {\ beta ^ 2 + 1} $ under Van Rijsbergens formulering.
Vad betyder detta? En informell sammanfattning:
- Van Rijsbergens definition $ \ Leftrightarrow $ återkallande är $ \ beta $ gånger lika viktigt som precision i termer av värde .
- Mitt förslag definition $ \ Leftrightarrow $ återkallande är $ \ gamma $ gånger så viktigt som precision när det gäller värdeförbättringar .
- Båda definitionerna baseras på ett viktat harmoniskt medelvärde av precision och återkallande, och viktningarna under dessa två definitioner kan kartläggas. När det gäller att placera $ \ beta = \ sqrt {\ gamma} $ gånger vikt i termer motsvarar placeringen $ \ gamma $ gånger vikt i termer av förbättringar i värde.
- Man kan försvarbart argumentera för att använda en $ \ beta $ term istället för $ \ beta ^ 2 $ är en mer intuitiv viktning.
Svar
Anledningen till att β ^ 2 multipliceras med precision är precis hur F-Scores definieras. Det betyder att när beta-värdet ökar, uppskattar du precision mer. Om du vill multiplicera det med återkallande som också skulle fungera, skulle det bara betyda att när beta-värdet ökar, värdesätter du minnet mer.
Svar
Betavärdet större än 1 betyder att vi vill att vår modell ska ägna mer uppmärksamhet åt modellen Recall jämfört med Precision. Å andra sidan lägger ett värde på mindre än 1 mer tonvikt på Precision.