Perché il punteggio f beta definisce la beta in questo modo?

Questo è il punteggio beta F: $$ F_ \ beta = (1 + \ beta ^ 2) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {Recall}} {(\ beta ^ 2 \ cdot \ mathrm {precisione}) + \ mathrm {Recall}} $$

Il Larticolo di Wikipedia afferma che $ F_ \ beta $ "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision".

Non mi è venuta lidea. Perché definire $ \ beta $ in questo modo? Posso definire $ F_ \ beta $ in questo modo:

$$ F_ \ beta = (1 + \ beta) \ cdot \ frac {\ mathrm {precision} \ cdot \ mathrm {richiamo}} {( \ beta \ cdot \ mathrm {precision}) + \ mathrm {recall}} $$

E come mostrare β times as much importance?

Commenti

  • Dai unocchiata a una risposta più recente di seguito che includa il calcolo differenziale che affronta ” perché Beta al quadrato e non Beta “.

Risposta

Affittare $ \ beta $ il peso nella prima definizione che fornisci e $ \ tilde \ beta $ il peso nella seconda, le due definizioni sono equivalenti quando imposti $ \ tilde \ beta = \ beta ^ 2 $, quindi queste due definizioni rappresentano solo differenze notazionali nella definizione del punteggio $ F_ \ beta $. Lho visto definito sia il primo modo (ad es. Su la pagina di wikipedia ) e il secondo (ad es. qui ).

La misura $ F_1 $ si ottiene prendendo la media armonica di precisione e richiamo, ovvero il reciproco della media del reciproco di precisione e del reciproco di richiamo:

\ begin {align *} F_1 & = \ frac {1} {\ frac {1} {2} \ frac {1} {\ text {precision}} + \ frac {1} {2} \ frac {1} {\ text {ricordare}}} \\ & = 2 \ frac {\ text {precision} \ cdot \ text {Recall}} {\ text {precision} + \ text {Recall}} \ end {align *}

Invece di usare pesi nel denominatore che sono uguali e somma a 1 ($ \ frac {1 } {2} $ per il richiamo e $ \ frac {1} {2} $ per la precisione), potremmo invece assegnare pesi che sommano ancora a 1 ma per i quali il peso sul richiamo è $ \ beta $ volte più grande del peso sulla precisione ($ \ frac {\ beta} {\ beta + 1} $ per il richiamo e $ \ frac {1} {\ beta + 1} $ per la precisione). Questo produce la tua seconda definizione del punteggio $ F_ \ beta $:

\ begin {align *} F_ \ beta & = \ frac {1} {\ frac {1} {\ beta + 1} \ frac {1} {\ text {precision}} + \ frac {\ beta} {\ beta + 1} \ frac {1} {\ text {ricordare}}} \\ & = (1+ \ beta) \ frac {\ text {precisione} \ cdot \ text {richiamo}} {\ beta \ cdot \ text {precisione} + \ text {richiamo }} \ end {align *}

Di nuovo, se avessimo usato $ \ beta ^ 2 $ invece di $ \ beta $ qui saremmo arrivati alla tua prima definizione, quindi le differenze tra le due definizioni sono solo notazionali.

Commenti

  • perché hanno moltiplicato $ \ beta $ con il termine di precisione invece del termine di richiamo?
  • Il calcolo differenziale che affronta ” perché Beta squared e non Beta ” è incluso in una risposta più recente sotto.
  • @Anwarvic Hanno moltiplicato $ \ beta $ per il richiamo inverso . Dopo aver scomposto $ (1+ \ beta) $ e averlo espanso con $ \ text {precision} \ cdot \ text {ricordare} $, rimane un termine $ \ beta \ cdot \ text {precision} $

Risposta

Il motivo per definire il punteggio F-beta con $ \ beta ^ { 2} $ è esattamente la citazione che fornisci (cioè voler allegare $ \ beta $ volte più importanza da ricordare rispetto alla precisione) data una definizione particolare per cosa significa attribuire $ \ beta $ volte più importanza da ricordare rispetto alla precisione.

Il modo particolare di definire limportanza relativa dei due le metriche che portano alla formulazione $ \ beta ^ {2} $ possono essere trovate in Information Retrieval (Van Rijsbergen, 1979):

Definizione: limportanza relativa che un utente attribuisce alla precisione e al richiamo è $ P / R $ rapporto a whi ch $ \ partial {E} / \ partial {R} = \ partial {E} / \ partial {P} $ , dove $ E = E (P, R) $ è la misura dellefficacia basata su precisione e richiamo.

La motivazione di questo essendo:

Il modo più semplice che conosco per quantificare questo è specificare $ P / R $ rapporto al quale lutente è disposto a scambiare un incremento di precisione per una pari perdita di richiamo.

Per vedere che questo porta alla formulazione $ \ beta ^ {2} $ noi può iniziare con la formula generale per la media armonica ponderata di $ P $ e $ R $ e calcolare il loro derivate parziali rispetto a $ P $ e $ R $ . La fonte citata utilizza $ E $ (per ” misura di efficacia “) , che è solo $ 1-F $ e la spiegazione è equivalente sia che si consideri $ E $ o $ F $ .

\ begin {equation} F = \ frac {1} {(\ frac { \ alpha} {P} + \ frac {1- \ alpha} {R})} \ end {equation}

\ begin {equation } \ partial {F} / \ partial {P} = \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ { 2}} \ end {equation}

\ begin {equation} \ partial {F} / \ partial {R} = \ frac {1 – \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} \ end {equation}

Ora, limpostazione delle derivate uguali tra loro pone una restrizione sulla relazione tra $ \ alpha $ e il rapporto $ P / R $ . Dato che desideriamo allegare $ \ beta $ volte più importanza da ricordare come precisione, considereremo il rapporto $ R / P $ 1 :

\ begin {equation} \ partial {F} / \ partial {P} = \ parziale {F} / \ partial {R} \ rightarrow \ frac {\ alpha} {P ^ {2}} = \ frac {1- \ alpha} {R ^ {2}} \ rightarrow \ frac {R} {P } = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ end {equation}

Definizione di $ \ beta $ poiché questo rapporto e la riorganizzazione di $ \ alpha $ fornisce le ponderazioni in termini di $ \ beta ^ {2} $ :

\ begin {equation} \ beta = \ sqrt {\ frac {1- \ alpha} {\ alpha}} \ rightarrow \ beta ^ {2} = \ frac {1- \ alpha} {\ alpha} \ rightarrow \ beta ^ {2} + 1 = \ frac {1} {\ alpha} \ rightarrow \ alpha = \ frac {1} {\ beta ^ {2} + 1} \ end {equation}

\ begin {equation} 1 – \ alpha = 1 – \ frac {1 }{\beta ^ {2} + 1} \ rightarrow \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ end {equation}

Otteniamo:

\ begin {equation} F = \ frac {1} {(\ frac {1} {\ beta ^ {2} + 1} \ frac {1} { P} + \ frac {\ beta ^ {2}} {\ beta ^ {2} + 1} \ frac {1} {R})} \ end {equation}

Quale può essere riorganizzato per fornire il modulo nella tua domanda.

Quindi, data la definizione tra virgolette, se desideri allegare $ \ beta $ volte come molta importanza da ricordare come precisione allora dovrebbe essere usata la formulazione $ \ beta ^ {2} $ . Questa interpretazione non vale se si usa $ \ beta $ .

Potresti definire un punteggio come suggerisci. In questo caso, come ha mostrato Vic , la definizione dellimportanza relativa che assumeresti è:

Definizione: limportanza relativa che un utente attribuisce alla precisione e al richiamo è $ \ partial {E} / \ partial {R} = \ partial {E} / \ rapporto {P} $ parziale al quale $ R = P $ .

Note a piè di pagina:

  1. $ P / R $ viene utilizzato in Information Retrieval ma sembra essere un errore di battitura, vedi The Truth of F-measure (Saski, 2007).

Riferimenti:

  1. C. J. Van Rijsbergen. 1979. Information Retrieval (2nd ed.), Pp.133-134
  2. Y. Sasaki. 2007. “The Truth of F-measure”, Insegnamento, Tutorial materiali

Commenti

Risposta

Per far notare rapidamente qualcosa.

Significa che allaumentare del valore beta, apprezzi maggiormente la precisione.

In realtà penso che sia lopposto, poiché maggiore è meglio nel punteggio F-β, vuoi che il denominatore sia piccolo. Pertanto, se diminuisci β, il modello viene punito meno per avere un buon punteggio di precisione. Se aumenti β, allora il punteggio F-β viene punito di più quando la precisione è alta.

Se desideri ponderare il punteggio F-β in modo che valuti la precisione, β deve essere 0 < β < 1, dove β-> 0 valuta solo la precisione (il numeratore diventa molto piccolo e lunica cosa nel denominatore è il richiamo, quindi il punteggio F-β diminuisce allaumentare del richiamo).

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html

Risposta

TLDR; Contrariamente alla letteratura che riconduce a una definizione proposta arbitraria, utilizzando un $ \ beta $ come suggerisce OP è in realtà più intuitivo del termine $ \ beta ^ 2 $ .

A Person “s la risposta fa bene a mostrare perché $ \ beta ^ { 2} $ appare, dato il modo scelto da Van Rijsbergen per definire limportanza relativa della precisione e del richiamo. Tuttavia, cè una considerazione che “manca nella letteratura, che sto discutendo qui”: la definizione scelta è poco intuitiva e innaturale, e se hai effettivamente usato $ F_ \ beta $ (in pratica) il modo in cui è definito, verrebbe subito lasciato a pensare, ” leffetto di $ \ beta $ sembra molto più aggressivo del valore che ho scelto “.

Per essere onesti, è principalmente il riepilogo di Wikipedia che è fuorviante, poiché trascura di menzionare la misura soggettiva dellimportanza coinvolta, mentre Van Rijsbergen ha semplicemente presentato una possibile definizione che era semplice ma non necessariamente la migliore o la più significativa.

Rivediamo la scelta di Van Rijsbergen di definizione:

Il modo più semplice che conosco per quantificare questo è specificare $ P / R $ rapporto al quale lutente è disposto a scambiare un incremento di precisione per uguale perdita di richiamo.

In generale, se $ R / P > \ beta $ quindi un aumento di $ P $ è più influente di un aumento di $ R $ , mentre $ R $ è più influente di $ P $ dove $ R / P < \ beta $ . Ma ecco perché vorrei sostenere che la ponderazione non è intuitiva. Quando $ P = R $ , aumenta $ R $ sono $ \ beta ^ 2 $ volte più efficaci di $ P $ . (Questo può essere calcolato dalle derivate parziali fornite nella risposta di A Person .) Quando qualcuno dice ” Voglio richiamare a essere ponderato 3 volte più importante della precisione “, non salterei alla definizione che equivale a ” la precisione sarà penalizzata finché “s letteralmente un terzo del valore di richiamo “, e certamente non mi aspetterei che quando precisione e richiamo sono uguali, il richiamo contribuisca 9 volte di più. Ciò non sembra pratico nella maggior parte delle situazioni in cui idealmente desideri che sia la precisione che il richiamo siano alti, solo che uno sia un po più alto dellaltro.

Di seguito è una rappresentazione visiva di ciò che $ F_ \ beta $ ha il seguente aspetto. Le linee rosse evidenziano il rapporto $ R / P = \ beta $ e il valore parziale le derivate di $ F_ \ beta $ sono uguali con quel rapporto, mostrato dalle pendenze rosse piene. inserisci qui la descrizione dellimmagine

Presenterò ora una definizione soggettiva alternativa, che equivale a ” quando la precisione e il richiamo sono uguali, i miglioramenti nel richiamo valgono $ \ gamma $ volte di più dei miglioramenti nella precisione “. Ritengo che questa definizione sia più intuitiva pur essendo altrettanto semplice della definizione di Van Rijsbergen:

Quando $ P = R $ , imposta $ \ frac {\ partial {F} / \ partial {R}} {\ partial {F} / \ partial {P}} = \ gamma $ , dove $ \ gamma $ è limportanza relativa dei miglioramenti nel richiamo rispetto alla precisione.

Sostituzione delle equazioni derivate nella risposta di A Person :

$ \ frac {1- \ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} R ^ {2}} = \ gamma \ frac {\ alpha} {(\ frac {\ alpha} {P} + \ frac {1- \ alpha} {R}) ^ {2} P ^ {2}} $

Ricordando che $ P = R $ , questo semplifica in:

$ \ gamma = \ frac {1- \ alpha} {\ alpha} $ e $ \ alpha = \ frac {1} {\ gamma + 1} $ ,

in contrasto con:

$ \ beta ^ 2 = \ frac {1- \ alpha} {\ alpha} $ e $ \ alpha = \ frac {1} {\ beta ^ 2 + 1} $ sotto la formulazione di Van Rijsbergen.

Cosa significa? Un riepilogo informale:

  • La definizione di Van Rijsbergen $ \ Leftrightarrow $ il ricordo è $ \ beta $ volte più importante della precisione in termini di valore .
  • La mia proposta definizione $ \ Leftrightarrow $ il richiamo è $ \ gamma $ volte più importante della precisione in termini di miglioramenti nel valore .
  • Entrambe le definizioni si basano su una media armonica ponderata di precisione e richiamo, e le ponderazioni sotto queste due definizioni possono essere mappate. In particolare, inserire $ \ beta = \ sqrt {\ gamma} $ volte limportanza in termini di valore equivale a inserire $ \ gamma $ volte limportanza in termini di miglioramenti nel valore.
  • Si può difendibilmente sostenere che luso di un $ \ beta $ termine invece di $ \ beta ^ 2 $ è una ponderazione più intuitiva.

Risposta

Il motivo per cui β ^ 2 viene moltiplicato con precisione è proprio il modo in cui vengono definiti i punteggi F. Significa che allaumentare del valore beta, apprezzi maggiormente la precisione. Se volessi moltiplicarlo con il richiamo che funzionerebbe anche tu, significherebbe semplicemente che allaumentare del valore beta, valuti di più il richiamo.

Risposta

Il valore beta maggiore di 1 significa che vogliamo che il nostro modello presti maggiore attenzione al richiamo del modello rispetto a Precisione. Dallaltro, un valore inferiore a 1 pone maggiormente laccento sulla precisione.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *