Wie nennt man Wörter wie „das, ein, ein, zu und“?

Ich möchte eine Liste von Wörtern identifizieren, die ich meinem Suchalgorithmus für eine Datenbank hinzufügen kann.

Ich würde gerne wissen wenn es eine Liste von Wörtern gibt, die ich identifizieren kann und die wenig Sinn haben. Ich möchte eine Datenbank nach genauen Übereinstimmungen durchsuchen, ohne bestimmte Wörter zu verwenden. Zum Beispiel the, an, a, to und . Ich bin mir nicht sicher, wie Sie diese Art von Wörtern nennen.

Kommentare

  • Willkommen bei EL & U. Ich denke, die meisten Mitwirkenden hier würden die Vorstellung in Frage stellen, dass Wörter wie das oder und " wenig Sinn haben "; Ein Abend mit der Königin wäre wahrscheinlich etwas anders als einer mit Königin – oder mit einer Königin . Beziehen Sie sich einfach auf sehr häufige Wörter , die Sie beispielsweise beim Indizieren von Text ignorieren sollten?
  • Die Liste der Wörter, die von a ausgeschlossen werden sollen Die Textsuche wird normalerweise als " Stoppwortliste " bezeichnet. Ein Beispiel finden Sie in der MySQL-Stoppwortliste für die Volltextsuche http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (' ist nicht so, dass diese Wörter " wenig Sinn haben ", sie dienen Ein wichtiges Ziel. Das Problem bei diesen Wörtern besteht darin, dass Übereinstimmungen, die auf diesen Wörtern basieren, häufig Ergebnisse liefern, die für das tatsächlich gesuchte Thema in der Regel nicht relevant sind.)
  • Siehe auch de.wikipedia.org/wiki/Stop_words

Antwort

Laut dem diejenigen, die Sie in Ihrem Beispiel geteilt haben:

  • die, an, a = Artikel.
  • und = additive koordinierende Konjunktion.
  • bis = Präposition.

Ich denke, Sie könnten nur „Common Words“ oder „Stop Words“ verwenden, das gehört normalerweise zu den Fachjargons, die beim Lesen von Indizierungsvorgängen in Suchmaschinen angegeben werden.

zB http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

Prost.

Kommentare

  • (1) ELU richtet sich an kompetente Linguisten und gibt das P. Das Betriebssystem ' s von ' und ' usw. ist zu einfach. (2) ' scheint keine benutzerfreundlichen Belege zu enthalten.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.