Dette er F beta-poengsummen: $$ F_ \ beta = (1 + \ beta ^ 2) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {(\ beta ^ 2 \ cdot \ mathrm {precision}) + \ mathrm {remember}} $$
The Wikipedia-artikkelen sier at $ F_ \ beta $ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision"
.
Jeg fikk ikke ideen. Hvorfor definere $ \ beta $ slik? Kan jeg definere $ F_ \ beta $ slik:
$$ F_ \ beta = (1 + \ beta) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {recall}} {( \ beta \ cdot \ mathrm {precision}) + \ mathrm {recall}} $$
Og hvordan viser du β times as much importance
?
Kommentarer
- Sjekk et nyere svar nedenfor som inkluderer differensialregningen som adresserer » hvorfor Beta kvadrat og ikke Beta «.
Svar
La $ \ beta $ være vekten i den første definisjonen du oppgir og $ \ tilde \ beta $ vekten i den andre, de to definisjonene er ekvivalente når du setter $ \ tilde \ beta = \ beta ^ 2 $, så disse to definisjonene representerer bare notasjonsforskjeller i definisjonen av $ F_ \ beta $ score. Jeg har sett den definere både den første veien (f.eks. På wikipedia-siden ) og den andre (f.eks. her ).
$ F_1 $ tiltaket oppnås ved å ta det harmoniske gjennomsnittet av presisjon og tilbakekalling, nemlig gjensidigheten av gjennomsnittet av gjensidigheten av presisjonen og den gjensidige av tilbakekallingen:
\ begin {align *} F_1 & = \ frac {1} {\ frac {1} {2} \ frac {1} {\ text {precision}} + \ frac {1} {2} \ frac {1} {\ text {remember}}} \\ & = 2 \ frac {\ text {precision} \ cdot \ text {recall}} {\ text {precision} + \ text {remember}} \ end {align *}
I stedet for å bruke vekter i nevneren som er like og sum til 1 ($ \ frac {1 } {2} $ for tilbakekalling og $ \ frac {1} {2} $ for presisjon), kan vi i stedet tildele vekter som fortsatt er 1, men som vekten for tilbakekalling er $ \ beta $ ganger så stor som vekten på presisjon ($ \ frac {\ beta} {\ beta + 1} $ for tilbakekalling og $ \ frac {1} {\ beta + 1} $ for presisjon). Dette gir din andre definisjon av $ F_ \ beta $-poengsummen:
\ begin {align *} F_ \ beta & = \ frac {1} {\ frac {1} {\ beta + 1} \ frac {1} {\ text {precision}} + \ frac {\ beta} {\ beta + 1} \ frac {1} {\ text {remember}}} \\ & = (1+ \ beta) \ frac {\ text {precision} \ cdot \ text {recall}} {\ beta \ cdot \ text {precision} + \ text {recall }} \ end {align *}
Igjen, hvis vi hadde brukt $ \ beta ^ 2 $ i stedet for $ \ beta $ her, ville vi ha kommet til din første definisjon, så forskjellene mellom de to definisjonene er bare notasjonelle.
Kommentarer
- hvorfor multipliserte de $ \ beta $ med presisjonsbegrepet i stedet for tilbakekallingsbegrepet?
- Differensialregningen som adresserer » hvorfor Beta kvadrat og ikke Beta » er inkludert i et nyere svar nedenfor.
- @Anwarvic De multipliserte $ \ beta $ med omvendt tilbakekalling. Etter å ha beregnet $ (1+ \ beta) $ og utvidet med $ \ text {precision} \ cdot \ text {recall} $ er det $ $ \ beta \ cdot \ text {precision} $ term igjen
Svar
Årsaken til å definere F-beta-poengsummen med $ \ beta ^ { 2} $ er nøyaktig sitatet du gir (dvs. ønsker å legge ved $ \ beta $ ganger så mye vekt å huske som presisjon) gitt en bestemt definisjon for hva det betyr å feste $ \ beta $ ganger så mye vekt å huske enn presisjon.
Den spesielle måten å definere den relative viktigheten av de to beregninger som fører til $ \ beta ^ {2} $ -formuleringen, finner du i Informasjonsinnhenting (Van Rijsbergen, 1979):
Definisjon: Den relative viktigheten en bruker legger til presisjon og tilbakekalling er $ P / R $ forhold på whi ch $ \ partial {E} / \ partial {R} = \ partial {E} / \ partial {P} $ , der $ E = E (P, R) $ er målingen på effektivitet basert på presisjon og tilbakekalling.
Motivasjonen for dette being:
Den enkleste måten jeg vet om å kvantifisere dette er å spesifisere $ P / R $ ratio som brukeren er villig til å bytte en økning i presisjon for et like tap i tilbakekalling.
For å se at dette fører til $ \ beta ^ {2} $ formulering vi kan starte med den generelle formelen for det vektede harmoniske gjennomsnittet av $ P $ og $ R $ og beregne deres delderivater med hensyn til $ P $ og $ R $ . Kilden som er sitert, bruker $ E $ (for » effektivitetsmål «) , som bare er $ 1-F $ og forklaringen tilsvarer om vi anser $ E $ eller $ F $ .
\ begin {ligning} F = \ frac {1} {(\ frac { \ alpha} {P} + \ frac {1- \ alpha} {R})} \ end {ligning}
\ begin {ligning } \ partial {F} / \ partial {P} = \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ { 2}} \ end {ligning}
\ begin {ligning} \ delvis {F} / \ delvis {R} = \ frac {1 – \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} \ end {ligning}
Nå, når du stiller derivatene til hverandre, settes det en begrensning på forholdet mellom $ \ alpha $ og forholdet $ P / R $ . Gitt at vi ønsker å feste $ \ beta $ ganger så mye vekt å huske som presisjon, vil vi vurdere forholdet $ R / P $ 1 :
\ begin {ligning} \ delvis {F} / \ delvis {P} = \ delvis {F} / \ partial {R} \ rightarrow \ frac {\ alpha} {P ^ {2}} = \ frac {1- \ alpha} {R ^ {2}} \ rightarrow \ frac {R} {P } = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ end {ligning}
Definere $ \ beta $ da dette forholdet og omorganisering for $ \ alpha $ gir vektingene i $ \ beta ^ {2} $ :
\ begin {equation} \ beta = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ rightarrow \ beta ^ {2} = \ frac {1- \ alpha} {\ alpha} \ rightarrow \ beta ^ {2} + 1 = \ frac {1} {\ alpha} \ rightarrow \ alpha = \ frac {1} {\ beta ^ {2} + 1} \ end {equation}
\ begin {ligning} 1 – \ alpha = 1 – \ frac {1 } {\ beta ^ {2} + 1} \ rightarrow \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ end {ligning}
Vi får:
\ begin {ligning} F = \ frac {1} {(\ frac {1} {\ beta ^ {2} + 1} \ frac {1} { P} + \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ frac {1} {R})} \ end {ligning}
Hvilken kan omorganiseres for å gi skjemaet i spørsmålet ditt.
Dermed, gitt den siterte definisjonen, hvis du vil legge ved $ \ beta $ ganger som mye viktig å huske som presisjon, så bør $ \ beta ^ {2} $ -formuleringen brukes. Denne tolkningen gjelder ikke hvis man bruker $ \ beta $ .
Du kan definere en poengsum som du foreslår. I dette tilfellet, som Vic har vist, er definisjonen for den relative viktigheten du antar er:
Definisjon: Den relative viktigheten en bruker legger til presisjon og tilbakekalling er $ \ partial {E} / \ partial {R} = \ partial {E} / \ delvis {P} $ forhold der $ R = P $ .
Fotnoter:
- $ P / R $ brukes i Informasjonsinnhenting men dette ser ut til å være en skrivefeil, se The Truth of F-measure (Saski, 2007).
Referanser:
- C. J. Van Rijsbergen. 1979. Informasjonsinnhenting (2. utg.), S.133-134
- Y. Sasaki. 2007. “The Truth of F-measure”, Teaching, Tutorial materials
Comments
- Dette bør være akseptert svar.
- @Anakhand Telleren er summen av vektene, se en.wikipedia.org/wiki/Harmonic_mean#Weighted_harmonic_mean
Svar
For å påpeke noe raskt.
Det betyr at når betaverdien øker, verdsetter du presisjon mer.
Jeg tror faktisk det er motsatt – siden høyere er bedre i F-β-poengsum, vil du at nevneren skal være liten. Derfor, hvis du reduserer β, blir modellen straffet mindre for å ha en god presisjonspoeng. Hvis du øker β, blir F-β-poengsummen straffet mer når presisjonen er høy.
Hvis du vil vekte F-β-poengsummen slik at den verdsetter presisjon, skal β være 0 < β < 1, hvor β-> 0 bare verdsetter presisjon (telleren blir veldig liten, og det eneste i nevneren er tilbakekalling, så F-β-poengsummen reduseres når tilbakekallingen øker).
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html
Svar
TLDR; I motsetning til litteraturen som alle sporer tilbake til en vilkårlig foreslått definisjon, ved hjelp av en $ \ beta $ sikt som OP antyder er faktisk mer intuitivt enn $ \ beta ^ 2 $ sikt.
En persons svar svarer godt hvorfor $ \ beta ^ { 2} $ vises, gitt Van Rijsbergens valgte måte å definere den relative betydningen av presisjon og tilbakekalling. Imidlertid er det en vurdering som mangler i litteraturen, som jeg argumenterer for her: den valgte definisjonen er uintuitiv og unaturlig, og hvis du faktisk brukte $ F_ \ beta $ (i praksis) slik den er definert, vil du fort bli tenkt, » effekten av $ \ beta $ virker mye mer aggressiv enn verdien jeg har valgt «.
For å være rettferdig, er det mest Wikipedia sitt sammendrag som er misvisende, ettersom det forsømmer å nevne det subjektive mål på viktigheten, mens Van Rijsbergen bare presenterte en mulig definisjon som var enkel, men ikke nødvendigvis den beste eller mest meningsfulle.
La oss gjennomgå Van Rijsbergens valg av definisjon:
Den enkleste måten jeg vet om å kvantifisere dette er å spesifisere $ P / R $ ratio som brukeren er villig til å bytte en økning i presisjon for like stort tap i tilbakekalling.
Generelt sett, hvis $ R / P > \ beta $ så er en økning i $ P $ mer innflytelsesrik enn en økning i $ R $ , mens $ R $ er mer innflytelsesrik enn $ P $ der $ R / P < \ beta $ . Men her vil jeg hevde at vektingen er uintuitiv. Når $ P = R $ øker i $ R $ er $ \ beta ^ 2 $ ganger så effektive som $ P $ . (Dette kan beregnes ut fra delderivatene gitt i En person sitt svar.) Når noen sier » vil jeg huske å være vektet 3 ganger viktigere enn presisjon «, jeg vil ikke hoppe til definisjonen som tilsvarer » presisjon vil bli straffet før den «s bokstavelig talt en tredjedel av verdien av tilbakekalling «, og jeg vil absolutt ikke forvente at når presisjon og tilbakekalling er lik, bidrar tilbakekalling 9 ganger så mye. Det virker ikke praktisk i de fleste situasjoner der du ideelt sett vil at både presisjon og tilbakekalling skal være høy, bare den ene skal være litt høyere enn den andre.
Nedenfor er en visuell fremstilling av hva $ F_ \ beta $ ser ut. De røde linjene markerer forholdet $ R / P = \ beta $ og at den delvise derivater av $ F_ \ beta $ er like i det forholdet, vist med de røde helningene.
Jeg skal nå presentere en alternativ subjektiv definisjon, som tilsvarer » når presisjon og tilbakekalling er like, forbedringer i tilbakekalling er verdt $ \ gamma $ ganger mer enn forbedringer i presisjon «. Jeg hevder at denne definisjonen er mer intuitiv mens den er like enkel som Van Rijsbergens definisjon:
Når $ P = R $ , sett $ \ frac {\ partial {F} / \ partial {R}} {\ partial {F} / \ partial {P}} = \ gamma $ , der $ \ gamma $ er den relative viktigheten av forbedringer i tilbakekalling over presisjon.
Erstatter ligninger avledet i En persons svar:
$ \ frac {1- \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} = \ gamma \ frac {\ alfa} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ {2}} $
Husker at $ P = R $ , dette forenkler til:
$ \ gamma = \ frac {1- \ alpha} {\ alpha} $ og $ \ alpha = \ frac {1} {\ gamma + 1} $ ,
i motsetning til:
$ \ beta ^ 2 = \ frac {1- \ alpha} {\ alpha} $ og $ \ alpha = \ frac {1} {\ beta ^ 2 + 1} $ under Van Rijsbergens formulering.
Hva betyr dette? Et uformelt sammendrag:
- Van Rijsbergen «s definisjon $ \ Leftrightarrow $ tilbakekalling er $ \ beta $ ganger så viktig som presisjon når det gjelder verdi .
- Mitt forslag definisjon $ \ Leftrightarrow $ tilbakekalling er $ \ gamma $ ganger så viktig som presisjon når det gjelder forbedringer i verdi .
- Begge definisjonene er basert på et vektet harmonisk gjennomsnitt av presisjon og tilbakekalling, og vektingene under disse to definisjonene kan kartlegges. Å plassere $ \ beta = \ sqrt {\ gamma} $ ganger viktigheten når det gjelder verdi tilsvarer å plassere $ \ gamma $ ganger viktigheten når det gjelder forbedringer i verdi.
- Man kan forsvarbart argumentere for at bruk av en $ \ beta $ term i stedet for $ \ beta ^ 2 $ er en mer intuitiv vekting.
Svar
Årsaken til at β ^ 2 multipliseres med presisjon er akkurat slik F-Scores er definert. Det betyr at når betaverdien øker, verdsetter du presisjon mer. Hvis du ville multiplisere den med tilbakekalling som også ville fungere, ville det bare bety at ettersom betaverdien øker, verdsetter du mer.
Svar
Betaverdien større enn 1 betyr at vi vil at modellen vår skal være mer oppmerksom på modellen Recall sammenlignet med Precision. På den annen side legger en verdi på mindre enn 1 mer vekt på Presisjon.