Comment appelez-vous des mots tels que «le, un, un, à et»?

Je cherche à identifier une liste de mots que je peux ajouter à mon algorithme de recherche pour une base de données.

Je voudrais savoir sil y a une liste de mots que je peux identifier et qui ne servent pas à grand chose. Je voudrais rechercher dans une base de données des correspondances exactes sans utiliser certains mots. Par exemple, the, an, a, to et . Je ne sais pas comment vous appelez ces types de mots.

Commentaires

  • Bienvenue dans EL & U. Je pense que la plupart des contributeurs ici contesteraient lidée que des mots tels que le ou et " ne servent pas à grand chose "; une soirée avec la reine serait probablement assez différente dune soirée avec reine – ou avec une reine dailleurs. Faites-vous simplement référence à des mots très courants , par exemple, à ignorer lors de lindexation de texte?
  • La liste des mots à exclure dun la recherche de texte est généralement appelée une " liste de mots vides ". À titre dexemple, consultez la liste des mots vides de recherche en texte intégral MySQL http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (il ' nest pas que ces mots " ne servent à rien ", ils servent un objectif important. Le problème avec ces mots est que les correspondances basées sur ces mots donnent souvent des résultats qui ont tendance à ne pas être pertinents pour le sujet recherché.)
  • Voir aussi en.wikipedia.org/wiki/Stop_words

Réponse

Selon le ceux que vous avez partagés dans votre exemple:

  • les, an, a = articles.
  • et = conjonction de coordination additive.
  • to = preposition.

Je suppose que vous pouvez utiliser uniquement des « mots communs » ou des « mots vides », qui font généralement partie des jargons techniques énoncés lors de la lecture des opérations dindexation dans les moteurs de recherche.

Par exemple, http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Cheers.

Commentaires

  • (1) ELU sadressant aux linguistes compétents, donnant le P Le système dexploitation ' s de ' et ' etc. est trop simpliste. (2) Il ne semble ' aucune preuve à lappui conviviale.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *