Szukam listy słów, które mogę dodać do mojego algorytmu wyszukiwania w bazie danych.
Chciałbym wiedzieć jeśli istnieje lista słów, które mogę zidentyfikować, a które nie służą żadnemu celowi. Chciałbym przeszukać bazę danych pod kątem dokładnych dopasowań bez użycia określonych słów. Na przykład the, an, a, to i . Nie wiem, jak nazywasz tego typu słowa.
Komentarze
- Witamy w EL & U. Myślę, że większość współautorów nie zgodziłaby się z poglądem, że słowa takie jak the lub i " nie służą żadnemu celowi "; wieczór z królową prawdopodobnie byłby raczej inny niż wieczór z królową – lub z królową , jeśli o to chodzi. Czy odnosisz się po prostu do bardzo popularnych słów , aby na przykład ignorować podczas indeksowania tekstu?
- Lista słów, które mają być wykluczone z wyszukiwanie tekstowe jest zwykle nazywane " listą pomijanych słów ". Jako przykład zobacz listę pomijanych słów wyszukiwania pełnotekstowego MySQL http://dev.mysql.com/doc/refman/5.5/en/fulltext-stopwords.html . (to ' czy te słowa " nie służą żadnemu celowi ", to nie służą jest to ważny cel. Problem z tymi słowami polega na tym, że dopasowania oparte na tych słowach często dają wyniki, które zwykle nie są istotne dla wyszukiwanego tematu.)
- Zobacz także en.wikipedia.org/wiki/Stop_words
Odpowiedź
Zgodnie z te, które udostępniłeś w swoim przykładzie:
- the, an, a = artykuły.
- and = addytywna koniunkcja koordynująca.
- to = przyimek.
Wydaje mi się, że można by użyć po prostu „popularnych słów” lub „słów pomijanych”, które zwykle należą do żargonów technicznych, które pojawiają się podczas czytania o indeksowaniu operacji w wyszukiwarkach.
Pozdrawiam.
Komentarze
- (1) ELU jest skierowana do biegłych lingwistów, dając P Systemy operacyjne ' z ' i ' itd. Są zbyt uproszczone. (2) Nie wydaje się, aby ' istniał żaden przyjazny dla użytkownika dowód.