“the, an, a, to 및”와 같은 단어를 무엇이라고 부르나요?

데이터베이스 검색 알고리즘에 추가 할 수있는 단어 목록을 찾고 있습니다.

알고 싶습니다. 목적이 거의없는 단어 목록이있는 경우 특정 단어를 사용하지 않고 정확히 일치하는 데이터베이스를 검색하고 싶습니다. 예 : the, an, a, to 및 . 이러한 유형의 단어가 무엇인지 잘 모르겠습니다.

댓글

  • EL에 오신 것을 환영합니다 & 유. 여기에 기여한 대부분의 사람들은 the 또는 그리고 " 목적이 거의 없다는 개념에 문제가있을 것 같습니다. id = “1b4d431282″>

; 여왕 과의 저녁은 아마도 여왕 이나 그 문제에 대해 여왕 과의 저녁과는 다소 다를 것입니다. 예를 들어 텍스트를 색인화 할 때 무시하기 위해 매우 일반적인 단어 를 참조하고 있습니까?

  • A에서 제외 할 단어 목록 텍스트 검색은 일반적으로 " 불용어 목록 "이라고합니다. 예를 들어 MySQL 전체 텍스트 검색 불용어 목록 http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html 를 참조하세요. ('이 단어가 " 작은 용도가 아니라 ", 중요한 목적입니다. 이러한 단어의 문제는 이러한 단어를 기반으로 한 일치가 종종 검색되는 실제 주제와 관련이없는 결과를 산출한다는 것입니다.)
  • en.wikipedia.org/wiki/Stop_words
  • 답변

    예에서 공유 한 것 :

    • the, an, a = article.
    • and = 추가 조정 접속사.
    • to = 전치사.

    “일반적인 단어”또는 “중지 단어”만 사용할 수있을 것 같습니다. 일반적으로 검색 엔진의 색인 작업에 대해 읽을 때 언급되는 기술 용어 중 하나입니다.

    예 : http://lucene.apache.org/core/3_0_3/api/core/org/apache/lucene/analysis/package-summary.html#Tokenization

    건배

    댓글

    • (1) ELU는 능숙한 언어 전문가를 겨냥하여 P ' 및 ' 등의 OS '는 지나치게 단순합니다. (2) ' 사용자 친화적 인 근거가없는 것 같습니다.

    답글 남기기

    이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다