Comment tester les résultats des moteurs de recherche?

Javais une question dentretien:

On vous a dit quun moteur de recherche La requête résultat par cible ne satisfait pas une exigence de par sa position. Comment le testeriez-vous?

Comment le testeriez-vous?

Jai eu quelques réflexions cependant:

  • Vous avez besoin dune liste de requêtes de recherche dentrée
  • Vous avez besoin dune position cible pour chacune des requêtes
  • Vous faites correspondre chaque position cible avec le réel

Mais ce nétait pas suffisant.

Commentaires

  • Je voudrais simplement vous ajouter ‘ re tester lalgorithme de recherche / classement, pas la façon dont les extraits de résultats sont présentés ou la façon dont fonctionne lautocomplétion des requêtes. Ils peuvent tous deux avoir un impact sur lefficacité ultime de la recherche.

Réponse

Je ne suis pas expert en moteurs de recherche, mais il y a nombreux facteurs qui contribuent à laffichage des résultats de la recherche. La requête est essentiellement le point de départ et la manière dont le moteur analyse la requête est importante. De plus, certains moteurs de recherche « refactoriseront » la requête en se basant sur des algorithmes de langage naturel. Lordre des résultats renvoyés dépend souvent de diverses mesures telles que la popularité, le nombre de mots correspondants, les mots clés, les balises, etc. De plus, certaines de ces mesures ont plus de poids que dautres.

Donc, cette question en soi ne vous fournit pas vraiment suffisamment de contexte, ou peut-être que le but de cette question était de vous amener à poser des questions pour obtenir plus de contexte. Parfois, les intervieweurs poseront des questions vagues pour voir si la personne interrogée commencera à prendre des « coups de couteau dans le noir « sans gagner suffisamment de contexte (par exemple, commencez à vous attaquer aux problèmes et espérez trouver une solution, ou pensez au problème et envisagez des solutions potentielles avec prévoyance).

Réponse

En fait, la question de savoir comment tester les moteurs de recherche fait partie du problème de récupération dinformations (IR). Je vais énumérer juste un peu dapproches pour les évaluer / tester.

Approche IR traditionnelle

Lune des méthodes de lIR traditionnel consiste à préparer la configuration du test, y compris:

  • Requêtes des candidats
  • Ensemble de données des pages indexées
  • Ensemble de résultats attendus (y compris le classement attendu) pour chaque requête

Ensuite, vous obtenez les résultats réels en exécutant votre moteur de recherche sur les requêtes des candidats et comparez les résultats réels avec les résultats attendus en utilisant lune des mesures de recherche dinformations , par exemple precision / rappel ou nDCG . Cela vous donnerait une réponse quantitative à quel point votre moteur de recherche est mauvais ou bon par rapport à lensemble de résultats attendus (exigence).

De toute évidence, la réponse sera spécifique au contexte. Cela dépendra notamment du choix des requêtes des candidats, de leur intention et de leur formulation, de lensemble de données des pages indexées et de la manière dont les résultats attendus ont été jugés. Alors quel était le contexte?

Approche IR interactive / axée sur les objectifs

Une autre approche, peut-être plus pratique, serait dimpliquer les utilisateurs potentiels et de leur permettre dévaluer la qualité des résultats pour une requête donnée. Ils peuvent apporter leurs propres requêtes ou vous pouvez définir des requêtes pour eux. Il peut sagir de quelques personnes ou dune communauté entière, à partir de laquelle vous pourriez obtenir des commentaires plus implicites sur la qualité des résultats (par exemple, les résultats sur lesquels on clique sont ceux attendus).

Isolation du problème

Enfin, le problème pourrait ne pas être dévaluer la qualité globale du moteur de recherche, mais seulement daffiner la raison du faible classement de ce résultat de requête particulier. Donc, je suivrais le problème que vous avez rencontré:

On vous a dit quun résultat de moteur de recherche par requête cible ne satisfait pas une exigence par sa position.

et je me suis demandé:

  • Quels étaient les autres résultats qui étaient mieux classés que cela?
  • Pourquoi ont-ils été mieux classés? Puis-je le dire à partir des extraits de résultats? Peut-être correspondent-ils aux mots clés de la requête, mais avec une signification différente? Alors peut-être que le libellé est incorrect? Une autre formulation de lintention de requête améliorerait-elle le résultat?
  • La même requête peut être formulée différemment, et les mêmes formulations peuvent avoir une intention de requête différente derrière elles. Est-ce que je sais vraiment quelle était lintention dun chercheur derrière cette requête?
  • Quelle est précisément lexigence? Pour augmenter les pages sponsorisées? Ou classer des pages plus élevées qui correspondent à lintention de la requête?

Cela peut vous aider à reproduire le problème pour dautres requêtes similaires.

Réponse

Jai travaillé pour une société de référencement en 2004.Notre objectif était dobtenir des résultats de recherche naturels / organiques sur la première ou la deuxième page de Google pour les phrases clés ciblées (les résultats de recherche naturels / organiques sont les résultats de recherche réguliers, pas ceux sponsorisés par Google Ad Words). La société était une start-up et a décidé de se concentrer uniquement sur Google car elle détenait plus de 80% du marché des moteurs de recherche à lépoque et des études ont montré que les utilisateurs regardaient très rarement au-delà des deux premières pages de Google pour une correspondance des résultats de recherche.

La façon dont nous avons testé les résultats consistait à taper les phrases clés ciblées (combinaison de mots clés) dans Google et à voir si la liste apparaissait sur la première ou la deuxième page de Google, si oui, cela a été pris en compte un succès, sinon cela a été considéré comme un échec.

Aujourdhui, les choses ont changé avec la publicité ciblée de Google, de sorte que les gens peuvent recevoir des résultats différents de différents ordinateurs et sils sont connectés à Google Plus, cela peut affecter les résultats aussi, donc je ne sais pas si cest encore possible de tester ça.

Commentaires

  • Donc, simplement les résultats Google ont été traités comme une référence == résultats attendus?

Réponse

Parce que la question mentionne « search res ult by the query ne satisfait pas son exigence par position », il semble que lobjectif du test soit de sassurer que le bon tri basé sur le classement / la pertinence est en place sur lalgorithme de recherche. Pour déboguer / approfondir cela, je pourrais demander plus de détails sur la requête – était-ce juste une simple recherche de texte sur un seul champ ou impliquait-elle une combinaison de champs, impliquait-elle des caractères non anglais (diacritiques, etc.). Parfois, la raison pour laquelle un résultat peut être classé plus bas peut être que certains caractères spéciaux sont omis dans la recherche ou que certains champs spécifiques ne sont pas indexés car la recherche omet ces champs.

Nous pourrions tester en

  • Utiliser le même terme / requête avec une combinaison supplémentaire de champs
  • Voir si la hitmap fonctionne bien – cest-à-dire fait le premier le document dans les résultats de la recherche a vraiment plus de «nombre de termes de recherche» que les autres documents dans le champ recherché – louverture du document et le comptage évalueraient cela.
  • Éliminer un caractère à la fois ou un champ (pour plusieurs recherche sur le terrain), puis vérifiez si les résultats sont pertinents
  • utilisez un synonyme du terme (pour la recherche par terme) et voyez sil illustre ce document et se classe plus haut
  • Affinez la recherche par date ou tout autre champ et voir si un ensemble de résultats réduit le classe plus haut

Une autre méthode consisterait simplement à appeler lAPI de recherche à laide dun outil comme Fiddler ou Postman, puis à comparer le rang renvoyé avec le classement dans linterface utilisateur. Parfois, lors de lanalyse et du chargement de la page côté client, en raison de problèmes de mise en cache, le tri peut être interrompu.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *