Hva kaller du ord som “the, an, a, to, og”?

Jeg ønsker å identifisere ordliste som jeg kan legge til i søkealgoritmen min for en database.

Jeg vil gjerne vite hvis det er en liste over ord som jeg kan identifisere som ikke har noe formål. Jeg vil gjerne søke i en database for nøyaktige treff uten bruk av visse ord. For eksempel den, en, en, til og . Jeg er ikke sikker på hva du kaller denne typen ord.

Kommentarer

  • Velkommen til EL & U. Jeg tror de fleste av bidragsyterne her vil ta opp ideen om at ord som the eller og " tjener lite formål "; en kveld med dronningen ville trolig være ganske annerledes enn en med dronning – eller med en dronning for den saks skyld. Henviser du bare til veldig vanlige ord , for eksempel å ignorere når du indekserer tekst?
  • Listen over ord som skal ekskluderes fra en tekstsøk kalles vanligvis en " stoppordsliste ". Som et eksempel, se MySQL-stoppordsliste for fulltekstsøk http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (det ' er ikke at disse ordene " tjener lite formål ", de tjener et viktig formål. Problemet med disse ordene er at treff basert på disse ordene ofte gir resultater som ikke pleier å være relevante selve emnet det blir søkt etter.)
  • Se også en.wikipedia.org/wiki/Stop_words

Svar

I følge de du delte i eksemplet ditt:

  • de, an, a = artikler.
  • og = additiv koordinerende konjunksjon.
  • til = preposisjon.

Jeg antar at du bare kunne bruke «Vanlige ord» eller «Stoppord», det er vanligvis blant de tekniske sjargongene som blir oppgitt når du leser om indekseringsoperasjoner i søkemotorer.

f.eks. http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Skål.

Kommentarer

  • (1) ELU er rettet mot dyktige lingvister, noe som gir P OS ' s av ' og ' etc er forenklet. (2) Det ser ikke ut til at ' er noen brukervennlige bevis.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *