Jeg ønsker å identifisere ordliste som jeg kan legge til i søkealgoritmen min for en database.
Jeg vil gjerne vite hvis det er en liste over ord som jeg kan identifisere som ikke har noe formål. Jeg vil gjerne søke i en database for nøyaktige treff uten bruk av visse ord. For eksempel den, en, en, til og . Jeg er ikke sikker på hva du kaller denne typen ord.
Kommentarer
- Velkommen til EL & U. Jeg tror de fleste av bidragsyterne her vil ta opp ideen om at ord som the eller og " tjener lite formål "; en kveld med dronningen ville trolig være ganske annerledes enn en med dronning – eller med en dronning for den saks skyld. Henviser du bare til veldig vanlige ord , for eksempel å ignorere når du indekserer tekst?
- Listen over ord som skal ekskluderes fra en tekstsøk kalles vanligvis en " stoppordsliste ". Som et eksempel, se MySQL-stoppordsliste for fulltekstsøk http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (det ' er ikke at disse ordene " tjener lite formål ", de tjener et viktig formål. Problemet med disse ordene er at treff basert på disse ordene ofte gir resultater som ikke pleier å være relevante selve emnet det blir søkt etter.)
- Se også en.wikipedia.org/wiki/Stop_words
Svar
I følge de du delte i eksemplet ditt:
- de, an, a = artikler.
- og = additiv koordinerende konjunksjon.
- til = preposisjon.
Jeg antar at du bare kunne bruke «Vanlige ord» eller «Stoppord», det er vanligvis blant de tekniske sjargongene som blir oppgitt når du leser om indekseringsoperasjoner i søkemotorer.
Skål.
Kommentarer
- (1) ELU er rettet mot dyktige lingvister, noe som gir P OS ' s av ' og ' etc er forenklet. (2) Det ser ikke ut til at ' er noen brukervennlige bevis.