Mit nevezel olyan szavaknak, mint „a, an, a, to és”?

Olyan szavak listáját keresem, amelyeket hozzáadhatok az adatbázis keresési algoritmusához.

Szeretnék tudni ha van olyan szavak listája, amelyeket azonosítani tudok, amelyek kevés célt szolgálnak. Szeretnék keresni egy adatbázisban pontos egyezéseket, bizonyos szavak használata nélkül. Például the, an, a, to és . Nem tudom, hogy hívod ezt a típusú szót.

Megjegyzések

  • Üdvözöljük az EL & oldalon U. Azt hiszem, az itt közreműködők többsége azt a felfogást vitatná, hogy az olyan szavak, mint a vagy és " kevés célt szolgálnak "; egy este a a királynő vel valószínűleg más lenne, mint a királynő vel – vagy a királynő vel. Egyszerűen nagyon gyakori szavakra hivatkozik, amelyeket például figyelmen kívül hagy a szöveg indexelésekor?
  • A szavak listája, amelyeket ki kell zárni a a szöveges keresést általában " stopword listának hívják ". Példaként olvassa el a MySQL teljes szöveges keresési Stopword listáját http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (nem ' nem az, hogy ezek a " szavak kevés célt szolgálnak ", hanem szolgálnak fontos cél. Ezekkel a szavakkal az a probléma, hogy az ezekre a szavakra épülő egyezések gyakran olyan eredményeket hoznak, amelyek általában nem relevánsak a keresett témában.)
  • Lásd még: hu.wikipedia.org/wiki/Stop_words

Válasz

A amelyeket megosztottál a példádban:

  • a, an, a = cikkek.
  • és = additív koordináló kötőszó.
  • to = prepozíció.

Gondolom, csak a “Common Words” vagy a “Stop Words” kifejezéseket használhatja, amelyek általában azok a technikai szakzsargonok, amelyeket a keresőmotorok indexelési műveleteinek olvasása közben mondanak.

pl. http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Egészségére.

Megjegyzések

  • (1) Az ELU a jártas nyelvészek számára irányul, megadva a P A ' s ' és ' stb. OS túlságosan leegyszerűsített. (2) Úgy tűnik, hogy ' nincs felhasználóbarát alátámasztó bizonyíték.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük