Mitä kutsutte sanoiksi kuten ”the, an, a, to” ja ”?

Etsin luetteloa sanoista, jotka voin lisätä tietokannan hakualgoritmiin.

Haluaisin tietää jos on luettelo sanoista, jotka voin tunnistaa ja joilla ei ole juurikaan tarkoitusta. Haluaisin etsiä tietokannasta tarkkoja vastaavuuksia käyttämättä tiettyjä sanoja. Esimerkiksi the, an, a, to ja . En ole varma, mitä kutsut tämän tyyppisiksi sanoiksi.

Kommentit

  • Tervetuloa EL & U. Luulen, että suurin osa kirjoittajista kyseenalaistaisi ajatuksen, että sanoilla kuten the tai ja " ei ole juurikaan tarkoitusta "; ilta kuningattaren kanssa olisi todennäköisesti erilainen kuin kuningatar – tai kuningatar n kanssa. Tarkoitatko esimerkiksi hyvin yleisiä sanoja , jotka jätetään huomiotta tekstin indeksoinnissa?
  • Luettelo sanoista, jotka on suljettava pois tekstihakua kutsutaan yleensä " pysäytyssanaluetteloksi ". Katso esimerkkinä MySQL-kokotekstihakun lopetussanaluettelo http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (se ' ei ole, että näillä sanoilla " ei ole juurikaan tarkoitusta ", ne palvelevat tärkeä tarkoitus. Näiden sanojen ongelmana on, että näihin sanoihin perustuvat vastaavuudet tuottavat usein tuloksia, joilla ei yleensä ole merkitystä etsittävän aiheen kannalta.)
  • Katso myös en.wikipedia.org/wiki/Stop_words

Vastaa

esimerkissä jakamasi:

  • the, an, a = artikkelit.
  • ja = additiivinen koordinoiva yhteys.
  • to = prepositio.

Luulen, että voisit käyttää vain ”yleisiä sanoja” tai ”pysäytyssanoja”, jotka ovat yleensä niiden teknisten ammattikielten joukossa, jotka ilmoitetaan lukemalla hakukoneiden indeksointitoimintoja.

esim. http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Kippis.

Kommentit

  • (1) ELU on suunnattu taitavia kielitieteilijöitä varten, OS ' s ryhmistä ' ja ' jne. On liian yksinkertaista. (2) ' ei näytä olevan käyttäjäystävällisiä todisteita.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *