Che cosa significa “ baseline ” nel contesto del machine learning?

Cosa significa “baseline” nel contesto dellapprendimento automatico e della scienza dei dati?

Qualcuno mi ha scritto:

Suggerimento: una linea di base appropriata darà un RMSE di circa 200.

Io non Significa che se il mio modello predittivo sui dati di addestramento ha un RMSE inferiore a 500, va bene?

E quale potrebbe essere un “approccio di base”?

Risposta

Una linea di base è il risultato di un modello / soluzione molto semplice. Generalmente crei una linea di base e poi cerchi di realizzare soluzioni più complesse per ottenere un risultato migliore. Se ottieni un punteggio migliore rispetto alla linea di base, va bene.

Commenti

  • bene, ma cosa significa esattamente per il mio punto? Per le mie due citazioni
  • Poiché la linea di base è 200, vuoi un punteggio migliore. Nel tuo caso un punteggio migliore significa minore è il migliore. Vuoi scendere sotto i 200. Io ' presumo che tu abbia a che fare con una regressione. La prima cosa da usare per una linea di base sarebbe una normale regressione dei minimi quadrati.

Risposta

Una linea di base è un metodo che utilizza leuristica, semplici statistiche di riepilogo, casualità o apprendimento automatico per creare previsioni per un set di dati. Puoi utilizzare queste previsioni per misurare le prestazioni della linea di base (ad es. Accuratezza): questa metrica diventerà quindi ciò con cui confronti qualsiasi altro algoritmo di apprendimento automatico.

Più in dettaglio:

Un algoritmo di machine learning cerca di apprendere una funzione che modella la relazione tra i dati di input (caratteristica) e la variabile di destinazione (o etichetta). Quando la provi, in genere misurerai le prestazioni in un modo o nellaltro. Ad esempio, il tuo algoritmo potrebbe essere accurato al 75%. Ma cosa significa? Puoi dedurre questo significato confrontandolo con le prestazioni di una linea di base.

Linee di base tipiche includono quelle supportate da scikit-learn “s” dummy “estimators :

Classificazione baseline:

  • “stratificato”: genera previsioni rispettando la distribuzione delle classi del training set.
  • “most_frequent”: predice sempre letichetta più frequente nel training set.
  • “prior”: predice sempre la classe s che massimizza la classe precedente.
  • “uniforme”: genera previsioni in modo uniforme in modo casuale.
  • “costante”: prevede sempre unetichetta costante fornita dallutente.

Questo è utile per le metriche che valutano una classe non maggioritaria.

Regressione baseline:

  • “median”: predice sempre la mediana del training set
  • “quantile”: predice sempre un quantile specificato del training set, fornito con il parametro quantile.
  • “costante”: predice sempre un valore costante fornito dallutente.

In generale, vorrai che il tuo approccio superi le linee di base selezionate. Nellesempio sopra, vorresti che la tua precisione del 75% fosse superiore a qualsiasi linea di base che hai eseguito sugli stessi dati.

Infine, se hai a che fare con un dominio specifico del machine learning (come il consiglio sistemi), quindi sceglierai tipicamente linee di base che sono gli attuali approcci allo stato dellarte (SoTA), poiché di solito vorrai dimostrare che il tuo approccio fa meglio di questi. Ad esempio, mentre valuti un nuovo algoritmo di filtraggio collaborativo, potresti volerlo confrontare con la fattorizzazione di matrice, che a sua volta è un algoritmo di apprendimento, ma ora è una linea di base popolare poiché ha avuto così tanto successo nella ricerca di sistemi di raccomandazione.

Risposta

Poiché abbiamo molti algoritmi di apprendimento automatico, dobbiamo sapere quale algoritmo ML si adatta meglio al nostro problema. Questo sarà identificato dallalgoritmo di previsione di base,

un algoritmo di previsione di base fornisce una serie di previsioni che puoi valutare come faresti con qualsiasi previsione per il tuo problema, come laccuratezza della classificazione o RMSE.

I punteggi di questi algoritmi forniscono il punto di confronto richiesto durante la valutazione di tutti gli altri algoritmi di apprendimento automatico sul tuo problema.

per ulteriori informazioni abbiamo un ottimo blog su ML: Che cosa significa " baseline " nel contesto del machine learning?

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *