Hledám identifikaci seznamu slov, která mohu přidat do svého vyhledávacího algoritmu pro databázi.
Chtěl bych vědět pokud existuje seznam slov, která dokážu identifikovat a která mají malý účel. Chtěl bych hledat v databázi přesné shody bez použití určitých slov. Například the, an, a, to a . Nejsem si jistý, jak tomu říkáte.
Komentáře
- Vítejte v EL & U. Myslím, že většina přispěvatelů by se postavila proti představě, že slova jako the nebo a " mají malý účel "; večer s královnou by se pravděpodobně poněkud lišil od večera s královnou – nebo s královnou . Poukazujete jednoduše na velmi běžná slova , například k ignorování při indexování textu?
- Seznam slov, která mají být vyloučena z textovému vyhledávání se obvykle říká " seznam stopword ". Jako příklad si můžete prohlédnout seznam stopových slov v MySQL Full Text Search http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (' to neznamená, že tato slova " slouží jen k malému účelu ", ale slouží důležitý účel. Problém těchto slov spočívá v tom, že shody založené na těchto slovech často přinášejí výsledky, které obvykle nejsou relevantní pro skutečné hledané téma.)
- Viz také en.wikipedia.org/wiki/Stop_words
Odpověď
Podle ty, které jste ve svém příkladu sdíleli:
- články, an, a =.
- a = aditivní koordinační spojka.
- to = předložka.
Myslím, že byste mohli použít pouze slova „Common Words“ nebo „Stop Words“, což je obvykle mezi technickými jargony, které jsou uvedeny při čtení o indexovacích operacích ve vyhledávačích.
Na zdraví.
Komentáře
- (1) ELU je zaměřena na zkušené lingvisty, což dává P OS ' s ' a ' atd. Jsou příliš zjednodušující. (2) Zdá se, že ' neexistují žádné uživatelsky přívětivé podpůrné důkazy.