Sto cercando di identificare un elenco di parole che posso aggiungere al mio algoritmo di ricerca per un database.
Vorrei sapere se cè un elenco di parole che posso identificare che servono a poco. Vorrei cercare in un database le corrispondenze esatte senza luso di determinate parole. Ad esempio, the, an, a, to e . Non sono sicuro di come chiami questo tipo di parole.
Commenti
- Benvenuto in EL & U. Penso che la maggior parte dei collaboratori qui non sarebbe daccordo con lidea che parole come il o e " servono a poco "; una serata con la regina sarebbe probabilmente piuttosto diversa da una con regina o con una regina se è per questo. Ti riferisci semplicemente a parole molto comuni , ad esempio, da ignorare durante lindicizzazione del testo?
- Lelenco di parole da escludere da un la ricerca di testo è generalmente chiamata " elenco di parole non significative ". Ad esempio, consulta lelenco di parole chiave per la ricerca full-text di MySQL http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (' non è che queste parole " servono a poco ", servono uno scopo importante. Il problema con queste parole è che le corrispondenze basate su queste parole spesso producono risultati che tendono a non essere pertinenti allargomento effettivamente cercato.)
- Vedi anche en.wikipedia.org/wiki/Stop_words
Risposta
Secondo il quelli che hai condiviso nel tuo esempio:
- the, an, a = articoli.
- e = congiunzione di coordinamento additivo.
- to = preposizione.
Immagino che potresti usare solo “Common Words” o “Stop Words”, che di solito sono tra i gerghi tecnici che vengono dichiarati durante la lettura delle operazioni di indicizzazione nei motori di ricerca.
Saluti.
Commenti
- (1) LELU si rivolge a linguisti esperti, dando la P Il sistema operativo ' di ' e ' ecc. È troppo semplicistico. (2) ' non sembra esserci alcuna prova a sostegno di facile utilizzo.