Je cherche à identifier une liste de mots que je peux ajouter à mon algorithme de recherche pour une base de données.
Je voudrais savoir sil y a une liste de mots que je peux identifier et qui ne servent pas à grand chose. Je voudrais rechercher dans une base de données des correspondances exactes sans utiliser certains mots. Par exemple, the, an, a, to et . Je ne sais pas comment vous appelez ces types de mots.
Commentaires
- Bienvenue dans EL & U. Je pense que la plupart des contributeurs ici contesteraient lidée que des mots tels que le ou et " ne servent pas à grand chose "; une soirée avec la reine serait probablement assez différente dune soirée avec reine – ou avec une reine dailleurs. Faites-vous simplement référence à des mots très courants , par exemple, à ignorer lors de lindexation de texte?
- La liste des mots à exclure dun la recherche de texte est généralement appelée une " liste de mots vides ". À titre dexemple, consultez la liste des mots vides de recherche en texte intégral MySQL http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (il ' nest pas que ces mots " ne servent à rien ", ils servent un objectif important. Le problème avec ces mots est que les correspondances basées sur ces mots donnent souvent des résultats qui ont tendance à ne pas être pertinents pour le sujet recherché.)
- Voir aussi en.wikipedia.org/wiki/Stop_words
Réponse
Selon le ceux que vous avez partagés dans votre exemple:
- les, an, a = articles.
- et = conjonction de coordination additive.
- to = preposition.
Je suppose que vous pouvez utiliser uniquement des « mots communs » ou des « mots vides », qui font généralement partie des jargons techniques énoncés lors de la lecture des opérations dindexation dans les moteurs de recherche.
Par exemple, http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization
Cheers.
Commentaires
- (1) ELU sadressant aux linguistes compétents, donnant le P Le système dexploitation ' s de ' et ' etc. est trop simpliste. (2) Il ne semble ' aucune preuve à lappui conviviale.