検索エンジンの結果をテストする方法は？

面接の質問がありました：

検索エンジンと言われましたターゲットクエリによる結果は、その位置による要件を満たしていません。どのようにテストしますか？

どのようにテストしますか？

私はいくつかの考えを持っていました：

入力検索クエリのリストが必要です
各クエリのターゲット位置が必要です
各ターゲット位置を実際の位置と一致させます

しかしそれだけでは不十分でした。

追加します'結果スニペットが表示される方法やクエリのオートコンプリートが機能する方法ではなく、検索/ランキングアルゴリズムを再テストします。どちらも最終的な検索効率に影響を与える可能性があります。

回答

私は検索エンジンの専門家ではありませんが、検索結果の表示方法に寄与する多くの要因。クエリは本質的に開始点であり、エンジンがクエリをどのように解析するかが重要です。また、一部の検索エンジンは、自然言語アルゴリズムに基づいてクエリを「リファクタリング」します。返される結果の順序は、人気、一致する単語の数、キーワード、タグなどのさまざまな指標に依存することがよくあります。また、これらの指標の一部は他の指標よりも重要視されています。

したがって、この質問それ自体では十分なコンテキストが提供されないか、おそらくこの質問の目的は、より多くのコンテキストを導き出すために質問をすることでした。インタビュアーが漠然とした質問をして、インタビュイーが「暗闇の中で刺し始める」かどうかを確認することがあります。「十分なコンテキストを取得せずに（たとえば、問題にぶつかり始めて解決策につまずいたり、問題について考えて考え抜かれた解決策を検討したりすることを望んでいます）。

回答

実際、検索エンジンをテストする方法の質問は、情報検索（IR）の問題の一部です。評価/テスト方法に関するいくつかのアプローチ。

従来のIRアプローチ

従来のIRの1つの方法は、次のようなテスト設定を準備することです。

候補クエリ
インデックス付きページのデータセット
各クエリの期待される結果セット（期待されるランキングを含む）

次に、候補クエリに対して検索エンジンを実行して実際の結果を取得し、情報検索メトリックの1つを使用して実際の結果を期待される結果と比較します、例えば適合率/再現率または nDCG 。これにより、期待される結果セット（要件）に関して検索エンジンがどれほど悪いか良いかを定量的に答えることができます。

明らかに、答えはコンテキスト固有です。特に、候補クエリの選択、意図と表現、インデックス付きページのデータセット、および期待される結果の判断方法によって異なります。では、コンテキストは何でしたか？

目標主導型/インタラクティブIRアプローチ

別のアプローチ、おそらくもっと実用的なのは、潜在的なユーザーを巻き込み、特定のクエリの結果の品質を評価させることです。彼らは彼ら自身のクエリを持ってくることができます、あるいはあなたは彼らのためにクエリを定義することができます。それらは少数の人々またはコミュニティ全体である可能性があり、そこから結果の品質に関するより暗黙的なフィードバックを得ることができます（たとえば、クリックされた結果は期待されるものです）。

問題の切り分け

最後に、問題は検索エンジンの全体的な品質を評価することではなく、ランクが低い理由を絞り込むことだけかもしれません。この特定のクエリ結果の。だから、私はあなたが得た問題に従います：

ターゲットクエリによる検索エンジンの結果は、その位置による要件を満たさないと言われました。

そして自問自答：

これより上位にランク付けされた他の結果は何でしたか？
なぜ彼らは上位にランクされたのですか？結果スニペットからこれを知ることはできますか？クエリキーワードと一致するかもしれませんが、意味が異なりますか？それで、多分言い回しは間違っていますか？クエリ意図の別の表現は結果を改善しますか？
同じクエリの表現が異なる場合があり、同じ表現の背後にあるクエリの意図が異なる場合があります。このクエリの背後にある検索者の意図が本当にわかっていますか？
要件は正確には何ですか？より高いスポンサーページを後押しするには？または、クエリの意図に一致する上位のページをランク付けしますか？

これらは、他の同様のクエリの問題を再現するのに役立ちます。

回答

2004年にSEO会社で働いていました。私たちの目標は、ターゲットのキーフレーズについてGoogleの1ページ目または2ページ目にナチュラル/オーガニック検索結果を取得することでした（ナチュラル/オーガニック検索結果は通常の検索結果であり、Google Ad Wordsが提供する検索結果ではありません）。同社は新興企業であり、当時検索エンジン市場の80％以上を占めていたため、Googleに焦点を当てることを決定しました。調査によると、ユーザーが検索結果の一致を探すためにGoogleの最初の2ページを通過することはめったにありません。

結果をテストする方法は、ターゲットのキーフレーズ（キーワードの組み合わせ）をGoogleに入力し、リストがGoogleの1ページ目または2ページ目に表示されるかどうかを確認することでした。表示される場合は、それが考慮されました。成功した場合、そうでない場合は失敗と見なされました。

今日、Googleのターゲット広告で状況が変化したため、ユーザーはさまざまなコンピューターからさまざまな結果を受け取る可能性があり、GooglePlusにログインした場合はこれが影響する可能性があります。結果もそうなので、これをもうテストすることさえ可能かどうかはわかりません。

つまり、単にGoogleの結果は参照として扱われました。 ==期待される結果？

回答

質問に「検索解像度」と記載されているためクエリによる結果は、位置による要件を満たしていません」、テストの目的は、検索アルゴリズムに適切なランキング/関連性ベースの並べ替えが行われていることを確認することであるようです。これをさらにデバッグ/ドリルダウンするために、クエリの詳細を尋ねるかもしれません-それは単一のフィールドでの単純なテキスト検索でしたか、フィールドの組み合わせを含んでいたか、英語以外の文字（発音区別符号など）を含んでいましたか？結果が下位にランク付けされる理由は、検索で一部の特殊文字が省略されているか、一部の特定のフィールドがインデックスに登録されていないために、検索でそれらのフィールドが省略されている可能性があります。

次の方法でテストできます

同じ用語/クエリをフィールドの追加の組み合わせで使用します
ヒットマップが正常に機能するかどうかを確認します-つまり、最初の検索結果のドキュメントには、検索されたフィールドの他のドキュメントよりも実際に多くの「検索用語カウント」があります。ドキュメントを開いてカウントすると、これが評価されます。
一度に1文字または1つのフィールド（マルチの場合）を削除します。フィールド検索）、結果が関連しているかどうかを確認します
用語の同義語を使用して（用語検索の場合）、そのドキュメントとランクが高いかどうかを確認します
検索を絞り込みます日付またはその他のフィールドを使用して、削減された結果セットが上位にランク付けされるかどうかを確認します。

別の方法は、フィドラーやポストマンなどのツールを使用してSearch APIを呼び出し、返されたランクを比較することです。 UIでのランキング。クライアント側のページの解析と読み込み中に、キャッシュの問題が原因で、並べ替えが混乱する場合があります。

検索エンジンの結果をテストする方法は？

コメント

回答

回答

回答

コメント

回答

コメントを残すコメントをキャンセル

コメント

回答

回答

回答

コメント

回答

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル