「the、an、a、to、and」などの言葉を何と呼びますか?

データベースの検索アルゴリズムに追加できる単語のリストを特定しようとしています。

知りたいのですが私が特定できる単語のリストがあり、それがほとんど目的を果たさない場合。特定の単語を使用せずに、データベースで完全一致を検索したいと思います。たとえば、 the、an、a、to、およびです。これらの種類の単語を何と呼んでいるかわかりません。

コメント

  • EL &へようこそU。ここでの貢献者のほとんどは、 the and "のような単語はほとんど目的を果たさないという概念に問題があると思います"; 女王との夜は、おそらく女王との夜、または女王との夜とはかなり異なります。たとえば、非常に一般的な単語を参照して、テキストのインデックスを作成するときに無視しているだけですか?
  • 除外する単語のリストテキスト検索は通常、"ストップワードリスト"と呼ばれます。例として、MySQL全文検索ストップワードリスト http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html を参照してください。 ('これらの単語が"ほとんど目的を果たさないわけではありません"重要な目的。これらの単語の問題は、これらの単語に基づく一致が、検索されている実際のトピックに関連しない傾向がある結果をもたらすことが多いことです。)
  • en.wikipedia.org/wiki/Stop_words

回答

によると例で共有したもの:

  • the、an、a =記事。
  • および=付加的な調整接続詞。
  • to =前置。

「CommonWords」または「StopWords」だけを使用できると思います。これは通常、検索エンジンでのインデックス作成操作について読んでいるときに述べられる技術用語の1つです。

例: http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

乾杯。

コメント

  • (1)ELUは熟練した言語学者を対象としており、Pを与える'や'などのOS 'は単純すぎます。 (2)'ユーザーフレンドリーな裏付けとなる証拠はないようです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です