Que signifie “ baseline ” dans le contexte de lapprentissage automatique?

Que signifie « baseline » dans le contexte de lapprentissage automatique et de la science des données?

Quelquun ma écrit:

Astuce: Une ligne de base appropriée donnera un RMSE denviron 200.

Je ne « t Veut-il dire que si mon modèle prédictif sur les données de formation a un RMSE inférieur à 500, cest bien?

Et que pourrait être une « approche de base »?

Réponse

Une ligne de base est le résultat dun modèle / solution très basique. Vous créez généralement une base de référence et essayez ensuite de proposer des solutions plus complexes afin dobtenir un meilleur résultat. Si vous obtenez un meilleur score que la ligne de base, cest bien.

Commentaires

  • bien, mais quest-ce que cela signifie exactement pour mon point? Pour mes deux citations
  • Puisque la référence est de 200, vous voulez un meilleur score. Dans votre cas, un meilleur score signifie le plus bas, mieux cest. Vous voulez descendre en dessous de 200. Je ' m en supposant que vous avez affaire à une régression. La première chose à utiliser pour une ligne de base serait une régression des moindres carrés ordinaire.

Réponse

Une ligne de base est méthode qui utilise lheuristique, des statistiques récapitulatives simples, le caractère aléatoire ou lapprentissage automatique pour créer des prédictions pour un ensemble de données. Vous pouvez utiliser ces prédictions pour mesurer les performances de la ligne de base (par exemple, la précision) – cette métrique deviendra alors ce à quoi vous comparez tout autre algorithme dapprentissage automatique.

Plus en détail:

Un algorithme dapprentissage automatique tente dapprendre une fonction qui modélise la relation entre les données dentrée (de fonction) et la variable cible (ou létiquette). Lorsque vous la testez, vous mesurerez généralement les performances dune manière ou dune autre. Par exemple, votre algorithme peut être précis à 75%. Mais quest-ce que cela signifie? Vous pouvez déduire cette signification en comparant les performances dune ligne de base.

Les lignes de base typiques incluent celles prises en charge par estimateurs « factices » de scikit-learn « s :

Classification lignes de base:

  • «stratifié»: génère des prédictions en respectant la distribution des classes de lensemble dapprentissage.
  • «most_frequent»: prédit toujours le libellé le plus fréquent dans lensemble dapprentissage.
  • «avant»: prédit toujours le clas s qui maximise la classe a priori.
  • «uniform»: génère des prédictions de manière uniforme au hasard.
  • «constant»: prédit toujours une étiquette constante fournie par lutilisateur.

Ceci est utile pour les métriques qui évaluent une classe non majoritaire.

Regression lignes de base:

  • «median»: prédit toujours la médiane de lensemble dapprentissage
  • «quantile»: prédit toujours un quantile spécifié de lensemble dapprentissage, fourni avec le paramètre quantile.
  • «constant»: prédit toujours une valeur constante qui est fournie par lutilisateur.

En général, vous voudrez que votre approche surpasse les lignes de base que vous avez sélectionnées. Dans lexemple ci-dessus, vous voudriez que votre précision de 75% soit plus élevée que toute référence que vous avez exécutée sur les mêmes données.

Enfin, si vous avez affaire à un domaine spécifique de lapprentissage automatique (tel que le recommandateur systèmes), vous choisirez généralement des lignes de base qui sont des approches de pointe (SoTA), car vous voudrez généralement démontrer que votre approche fait mieux que celles-ci. Par exemple, pendant que vous évaluez un nouvel algorithme de filtrage collaboratif, vous voudrez peut-être le comparer à la factorisation matricielle – qui est elle-même un algorithme dapprentissage, mais qui est maintenant une base de référence populaire car elle a si bien réussi dans la recherche de systèmes de recommandation.

Réponse

Comme nous avons de nombreux algorithmes dapprentissage automatique, nous devons savoir quel algorithme ML convient le mieux à notre problème. Cela sera identifié par lalgorithme de prédiction de base,

Un algorithme de prédiction de base fournit un ensemble de prédictions que vous pouvez évaluer comme vous le feriez pour nimporte quelle prédiction pour votre problème, comme la précision de la classification ou RMSE.

Les scores de ces algorithmes fournissent le point de comparaison requis lors de lévaluation de tous les autres algorithmes dapprentissage automatique sur votre problème.

pour plus dinformations, nous avons un très bon blog sur ML: Que signifie " baseline " dans le contexte de lapprentissage automatique?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *