Cum numiți cuvinte precum „the, an, a, to, and”?

Caut să identific o listă de cuvinte pe care le pot adăuga algoritmului meu de căutare pentru o bază de date.

Aș dori să știu dacă există o listă de cuvinte pe care le pot identifica și care nu au un scop prea mic. Aș dori să caut o bază de date pentru potriviri exacte fără a utiliza anumite cuvinte. De exemplu, the, an, a, to și . Nu sunt sigur cum numiți acest tip de cuvinte.

Comentarii

  • Bine ați venit la EL & U. Cred că majoritatea contribuabililor de aici ar contesta ideea că cuvintele precum the sau și " nu au un scop prea mic "; o seară cu Regina ar fi probabil diferită de una cu Regina – sau cu o regină de altfel. Vă referiți pur și simplu la cuvinte foarte obișnuite , de exemplu, de ignorat la indexarea textului?
  • Lista cuvintelor care trebuie excluse dintr-un căutarea textului se numește de obicei o " listă de cuvinte stop ". De exemplu, consultați MySQL Full Text Search Stopword List http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (nu ' nu este faptul că aceste cuvinte " au un scop mic ", ele servesc un scop important. Problema cu aceste cuvinte este că potrivirile bazate pe aceste cuvinte dau adesea rezultate care tind să nu fie relevante subiectul efectiv căutat.)
  • A se vedea și en.wikipedia.org/wiki/Stop_words

Răspuns

Conform cele pe care le-ați distribuit în exemplul dvs.:

  • articolele, an, a =.
  • și = conjuncția de coordonare aditivă.
  • to = prepoziție.

Cred că ați putea folosi doar „Cuvinte obișnuite” sau „Opriți cuvintele”, care sunt de obicei printre jargoanele tehnice care sunt menționate în timp ce citiți despre operațiile de indexare în motoarele de căutare.

de exemplu, http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Salutări.

Comentarii

  • (1) ELU este destinat lingviștilor competenți, oferind P OS ' s din ' și ' etc este prea simplist. (2) Nu ' pare să existe dovezi ușor de utilizat.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *