Vad kallar du ord som ”the, an, a, to och”?

Jag vill identifiera en lista med ord som jag kan lägga till i min sökalgoritm för en databas.

Jag skulle vilja veta om det finns en lista med ord som jag kan identifiera som tjänar lite syfte. Jag skulle vilja söka i en databas för exakta matchningar utan att använda vissa ord. Till exempel den, en, en, till och . Jag är inte säker på vad du kallar den här typen av ord.

Kommentarer

  • Välkommen till EL & U. Jag tror att de flesta av bidragsgivarna här skulle ta upp tanken att ord som the eller och " tjänar lite syfte "; en kväll med drottningen skulle förmodligen vara ganska annorlunda än en med drottning – eller med en drottning för den delen. Hänvisar du helt enkelt till mycket vanliga ord , till exempel att ignorera när du indexerar text?
  • Listan över ord som ska undantas från en textsökning kallas vanligtvis en " stoppordslista ". Se exempelvis stoppordslistan för MySQL-sökning http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (det ' är inte att dessa ord " tjänar lite syfte ", de tjänar ett viktigt syfte. Problemet med dessa ord är att matchningar baserade på dessa ord ofta ger resultat som tenderar att inte vara relevanta för det aktuella ämnet som söks.)
  • Se även sv.wikipedia.org/wiki/Stop_words

Svar

Enligt sådana som du delade i ditt exempel:

  • de, an, a = artiklar.
  • och = tillsats koordinerande konjunktion.
  • till = preposition.

Jag antar att du bara kan använda ”Vanliga ord” eller ”Stoppord”, det är vanligtvis bland de tekniska jargongerna som anges när du läser om indexeringsfunktioner i sökmotorer.

t.ex. http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Skål.

Kommentarer

  • (1) ELU riktar sig till skickliga lingvister, vilket ger P OS ' s av ' och ' etc är överförenklat. (2) Det verkar inte ' det finns några användarvänliga stödjande bevis.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *