¿Qué significa “ baseline ” en el contexto del aprendizaje automático?

¿Qué significa «línea de base» en el contexto del aprendizaje automático y la ciencia de datos?

Alguien me escribió:

Sugerencia: una línea de base adecuada dará un RMSE de aproximadamente 200.

No lo hago Entiende esto. ¿Quiere decir que si mi modelo predictivo en los datos de entrenamiento tiene un RMSE por debajo de 500, es bueno?

¿Y qué podría ser un «enfoque de línea de base»?

Respuesta

Una línea de base es el resultado de un modelo / solución muy básico. Por lo general, crea una línea de base y luego intenta hacer soluciones más complejas para obtener un mejor resultado. Si logra una puntuación mejor que la línea de base, es bueno.

Comentarios

  • bueno, pero ¿qué significa eso exactamente para mi punto? Para mis dos citas
  • Dado que la línea de base es 200, desea una mejor puntuación. En su caso, una mejor puntuación significa que cuanto más baja, mejor. Quiere estar por debajo de 200. Yo ' asumo que se trata de una regresión. Lo primero que debe usar para una línea de base sería una regresión de mínimos cuadrados ordinaria.

Respuesta

Una línea de base es un método que utiliza heurística, estadísticas de resumen simples, aleatoriedad o aprendizaje automático para crear predicciones para un conjunto de datos. Puede utilizar estas predicciones para medir el rendimiento de la línea de base (p. Ej., La precisión); esta métrica se convertirá en lo que comparará con cualquier otro algoritmo de aprendizaje automático.

Con más detalle:

Un algoritmo de aprendizaje automático intenta aprender una función que modela la relación entre los datos de entrada (función) y la variable de destino (o etiqueta). Cuando lo pruebes, normalmente medirás el rendimiento de una forma u otra. Por ejemplo, su algoritmo puede tener una precisión del 75%. Pero, ¿qué significa esto? Puede inferir este significado comparándolo con el rendimiento de una línea de base.

Las líneas de base típicas incluyen las admitidas por scikit-learn «s» estimadores «ficticios» :

Clasificación líneas de base:

  • «estratificado»: genera predicciones respetando la distribución de clases del conjunto de entrenamiento.
  • «most_frequent»: siempre predice la etiqueta más frecuente en el conjunto de entrenamiento.
  • «previo»: siempre predice el clas s que maximiza la clase previa.
  • “uniforme”: genera predicciones uniformemente al azar.
  • “constante”: predice siempre una etiqueta constante que es proporcionada por el usuario.

Esto es útil para métricas que evalúan una clase no mayoritaria.

Regresión líneas de base:

  • «mediana»: siempre predice la mediana del conjunto de entrenamiento
  • «cuantil»: siempre predice un cuantil específico del conjunto de entrenamiento, provisto con el parámetro cuantílico.
  • “constante”: siempre predice un valor constante proporcionado por el usuario.

En general, querrá que su enfoque supere las líneas de base que ha seleccionado. En el ejemplo anterior, querría que su precisión del 75% sea mayor que cualquier línea de base que haya ejecutado con los mismos datos.

Por último, si se trata de un dominio específico de aprendizaje automático (como recomendador sistemas), normalmente elegirá líneas de base que sean enfoques actuales de última generación (SoTA), ya que generalmente querrá demostrar que su enfoque funciona mejor que estos. Por ejemplo, mientras evalúa un nuevo algoritmo de filtrado colaborativo, es posible que desee compararlo con la factorización matricial, que en sí mismo es un algoritmo de aprendizaje, pero ahora es una línea de base popular ya que ha tenido tanto éxito en la investigación de sistemas de recomendación.

Respuesta

Como tenemos muchos algoritmos de aprendizaje automático, tenemos que saber qué algoritmo ML se adapta mejor a nuestro problema. Esto se identificará mediante el algoritmo de predicción de línea base.

Un algoritmo de predicción de línea base proporciona un conjunto de predicciones que puede evaluar como lo haría con cualquier predicción para su problema, como la precisión de clasificación o RMSE.

Las puntuaciones de estos algoritmos proporcionan el punto de comparación necesario cuando se evalúan todos los demás algoritmos de aprendizaje automático en su problema.

Para obtener más información, tenemos un muy buen blog sobre ML: ¿Qué significa " baseline " en el contexto del aprendizaje automático?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *