O que “ baseline ” significa no contexto do aprendizado de máquina?

O que “linha de base” significa no contexto de aprendizado de máquina e ciência de dados?

Alguém me escreveu:

Dica: uma linha de base apropriada fornecerá um RMSE de aproximadamente 200.

Eu não Ele quer dizer que se meu modelo preditivo nos dados de treinamento tiver um RMSE abaixo de 500, ele está bom?

E o que poderia ser uma “abordagem de linha de base”?

Resposta

Uma linha de base é o resultado de um modelo / solução muito básico. Geralmente, você cria uma linha de base e, em seguida, tenta fazer soluções mais complexas para obter um resultado melhor. Se você obtiver uma pontuação melhor do que a linha de base, é bom.

Comentários

  • bem, mas o que isso significa exatamente para o meu ponto? Para minhas duas citações
  • Como a linha de base é 200, você deseja uma pontuação melhor. No seu caso, uma pontuação melhor significa que, quanto menor, melhor. Você deseja obter menos de 200. Eu ' estou supondo que você está lidando com uma regressão. A primeira coisa a usar para uma linha de base seria uma regressão de mínimos quadrados comum.

Resposta

Uma linha de base é um método que usa heurística, estatísticas de resumo simples, aleatoriedade ou aprendizado de máquina para criar previsões para um conjunto de dados. Você pode usar essas previsões para medir o desempenho da linha de base (por exemplo, precisão) – essa métrica se tornará o que você compara com qualquer outro algoritmo de aprendizado de máquina.

Em mais detalhes:

Um algoritmo de aprendizado de máquina tenta aprender uma função que modela a relação entre os dados de entrada (recurso) e a variável de destino (ou rótulo). Ao testá-lo, você normalmente medirá o desempenho de uma forma ou de outra. Por exemplo, seu algoritmo pode ser 75% preciso. Mas o que isso significa? Você pode inferir esse significado comparando o desempenho de uma linha de base.

As linhas de base típicas incluem aquelas suportadas por estimadores scikit-learn “s” dummy “:

Linhas de base de classificação :

  • “estratificado”: gera previsões respeitando a distribuição de classes do conjunto de treinamento.
  • “most_frequent”: sempre prevê o rótulo mais frequente no conjunto de treinamento.
  • “anterior”: sempre prevê a classe s que maximiza a classe a priori.
  • “uniforme”: gera previsões uniformemente ao acaso.
  • “constante”: sempre prevê um rótulo constante que é fornecido pelo usuário.

Isso é útil para métricas que avaliam uma classe não majoritária.

Linhas de base de regressão :

  • “mediana”: sempre prevê a mediana do conjunto de treinamento
  • “quantil”: sempre prevê um quantil especificado do conjunto de treinamento, fornecido com o parâmetro quantil.
  • “constante”: sempre prediz um valor constante que é fornecido pelo usuário.

Em geral, você desejará que sua abordagem supere as linhas de base selecionadas. No exemplo acima, você gostaria que sua precisão de 75% fosse maior do que qualquer linha de base executada com os mesmos dados.

Finalmente, se você estiver lidando com um domínio específico de aprendizado de máquina (como o recomendador sistemas), então você normalmente escolherá linhas de base que são abordagens de última geração (SoTA) – já que normalmente você desejará demonstrar que sua abordagem se sai melhor do que essas. Por exemplo, enquanto você avalia um novo algoritmo de filtragem colaborativa, você pode querer compará-lo com a fatoração de matriz – que por si só é um algoritmo de aprendizado, mas agora é uma linha de base popular, uma vez que tem sido tão bem-sucedida na pesquisa do sistema de recomendação.

Resposta

Como temos muitos algoritmos de aprendizado de máquina, precisamos saber qual algoritmo de ML é mais adequado para nosso problema. Isso será identificado pelo algoritmo de previsão de linha de base,

Um algoritmo de previsão de linha de base fornece um conjunto de previsões que você pode avaliar como faria com qualquer previsão para o seu problema, como precisão de classificação ou RMSE.

As pontuações desses algoritmos fornecem o ponto de comparação necessário ao avaliar todos os outros algoritmos de aprendizado de máquina em seu problema.

para obter mais informações, temos um blog muito bom sobre ML: O que " baseline " significa no contexto de aprendizado de máquina?

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *