Hvad kalder du ord som “the, an, a, to og”?

Jeg søger at identificere en liste over ord, som jeg kan føje til min søgealgoritme til en database.

Jeg vil gerne vide hvis der er en liste over ord, som jeg kan identificere, der tjener ringe formål. Jeg vil gerne søge i en database efter nøjagtige matches uden brug af bestemte ord. For eksempel den, en, en, til og . Jeg er ikke sikker på, hvad du kalder denne type ord.

Kommentarer

  • Velkommen til EL & U. Jeg tror, at de fleste bidragydere her ville tage fat på forestillingen om, at ord som eller og " tjener ringe formål "; en aften med dronningen ville sandsynligvis være ret anderledes end en med dronning – eller med en dronning for den sags skyld. Henviser du bare til meget almindelige ord , for eksempel at ignorere, når du indekserer tekst?
  • Listen over ord, der skal udelukkes fra en tekstsøgning kaldes typisk en " stopordliste ". Se et stopordsliste til MySQL i fuld tekstsøgning http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (det ' er ikke, at disse ord " tjener lidt formål ", de tjener et vigtigt formål. Problemet med disse ord er, at matches, der er baseret på disse ord, ofte giver resultater, der ikke synes at være relevante for det aktuelle emne, der søges.)
  • Se også en.wikipedia.org/wiki/Stop_words

Svar

I henhold til dem, du delte i dit eksempel:

  • de, en, a = artikler.
  • og = additiv koordinerende sammenhæng.
  • til = præposition.

Jeg antager, at du kun kunne bruge “almindelige ord” eller “stopord”, det er normalt blandt de tekniske jargoner, der er angivet, når du læser om indekseringshandlinger i søgemaskiner.

f.eks. http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Skål.

Kommentarer

  • (1) ELU er rettet mod dygtige lingvister, hvilket giver P OS ' s af ' og ' osv. Er overforenklet. (2) Der ser ' ikke ud til at være noget brugervenligt understøttende bevis.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *