Jak říkáte slova jako „the, an, a, to, and“?

Hledám identifikaci seznamu slov, která mohu přidat do svého vyhledávacího algoritmu pro databázi.

Chtěl bych vědět pokud existuje seznam slov, která dokážu identifikovat a která mají malý účel. Chtěl bych hledat v databázi přesné shody bez použití určitých slov. Například the, an, a, to a . Nejsem si jistý, jak tomu říkáte.

Komentáře

  • Vítejte v EL & U. Myslím, že většina přispěvatelů by se postavila proti představě, že slova jako the nebo a " mají malý účel "; večer s královnou by se pravděpodobně poněkud lišil od večera s královnou – nebo s královnou . Poukazujete jednoduše na velmi běžná slova , například k ignorování při indexování textu?
  • Seznam slov, která mají být vyloučena z textovému vyhledávání se obvykle říká " seznam stopword ". Jako příklad si můžete prohlédnout seznam stopových slov v MySQL Full Text Search http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (' to neznamená, že tato slova " slouží jen k malému účelu ", ale slouží důležitý účel. Problém těchto slov spočívá v tom, že shody založené na těchto slovech často přinášejí výsledky, které obvykle nejsou relevantní pro skutečné hledané téma.)
  • Viz také en.wikipedia.org/wiki/Stop_words

Odpověď

Podle ty, které jste ve svém příkladu sdíleli:

  • články, an, a =.
  • a = aditivní koordinační spojka.
  • to = předložka.

Myslím, že byste mohli použít pouze slova „Common Words“ nebo „Stop Words“, což je obvykle mezi technickými jargony, které jsou uvedeny při čtení o indexovacích operacích ve vyhledávačích.

např. http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Na zdraví.

Komentáře

  • (1) ELU je zaměřena na zkušené lingvisty, což dává P OS ' s ' a ' atd. Jsou příliš zjednodušující. (2) Zdá se, že ' neexistují žádné uživatelsky přívětivé podpůrné důkazy.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *