Como você chama palavras como “o, uma, a, para e”?

Estou procurando identificar uma lista de palavras que posso adicionar ao meu algoritmo de pesquisa para um banco de dados.

Eu gostaria de saber se houver uma lista de palavras que posso identificar e que não servem a nenhum propósito. Gostaria de pesquisar correspondências exatas em um banco de dados sem o uso de certas palavras. Por exemplo, the, an, a, to e . Não tenho certeza de como você chama esse tipo de palavra.

Comentários

  • Bem-vindo ao EL & VOCÊ. Acho que a maioria dos colaboradores aqui discordaria da noção de que palavras como the ou e " têm pouca utilidade "; uma noite com a Rainha provavelmente seria bem diferente de uma noite com a Rainha – ou com uma rainha . Você está simplesmente se referindo a palavras muito comuns , por exemplo, para ignorar ao indexar texto?
  • A lista de palavras a serem excluídas de um a pesquisa de texto é normalmente chamada de " lista de palavras de interrupção ". Como exemplo, consulte a Lista de palavras irrelevantes de pesquisa de texto completo do MySQL http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (' não é que essas palavras " tenham pouco propósito ", elas servem um propósito importante. O problema com essas palavras é que as correspondências com base nessas palavras geralmente produzem resultados que tendem a não ser relevantes para o tópico real pesquisado.)
  • Consulte também en.wikipedia.org/wiki/Stop_words

Resposta

De acordo com o aqueles que você compartilhou em seu exemplo:

  • os, an, a = artigos.
  • e = conjunção coordenadora aditiva.
  • to = preposição.

Acho que você poderia usar apenas “Palavras comuns” ou “Palavras de interrupção”, que geralmente estão entre os jargões técnicos que são declarados durante a leitura sobre operações de indexação nos motores de busca.

Por exemplo, http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Saudações.

Comentários

  • (1) ELU destinada a linguistas proficientes, dando o P OS ' s de ' e ' etc. é simplista demais. (2) Não ' não parece haver nenhuma evidência de apoio amigável.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *