Como testar os resultados do mecanismo de pesquisa?

Tive uma pergunta para uma entrevista:

Disseram-lhe que um motor de pesquisa resultado por consulta de destino não satisfaz um requisito por sua posição. Como você o testaria?

Como você o testaria?

Eu tinha algumas idéias, porém:

  • Você precisa de uma lista de consultas de pesquisa de entrada
  • Você precisa de uma posição-alvo para cada uma das consultas
  • Você corresponde a cada posição-alvo com a real

Mas não foi o suficiente.

Comentários

  • Eu apenas adicionaria você ‘ Testando novamente o algoritmo de pesquisa / classificação, não a forma como os fragmentos de resultados são apresentados ou como o preenchimento automático de consulta funciona. Ambos podem afetar a eficácia da recuperação final.

Resposta

Não sou especialista em mecanismos de pesquisa, mas existem muitos fatores que contribuem para a forma como os resultados da pesquisa são exibidos. A consulta é essencialmente o ponto de partida e como o mecanismo analisa a consulta é importante. Além disso, alguns mecanismos de pesquisa irão “refatorar” a consulta com base em algoritmos de linguagem natural. A ordem dos resultados retornados geralmente depende de várias métricas, como popularidade, número de palavras correspondentes, palavras-chave, tags, etc. Além disso, algumas dessas medidas têm mais peso do que outras.

Portanto, esta questão por si só não fornece contexto suficiente, ou talvez o propósito desta pergunta seja fazer com que você faça perguntas para obter mais contexto. Às vezes, os entrevistadores fazem perguntas vagas para ver se o entrevistado vai começar a dar “punhaladas no escuro “sem ganhar contexto suficiente (por exemplo, começar a discutir os problemas e esperar encontrar uma solução, ou pensar sobre o problema e considerar possíveis soluções com premeditação).

Resposta

Na verdade, a questão de como testar os mecanismos de pesquisa faz parte do problema de recuperação de informações (RI). Listarei apenas um algumas abordagens de como eles podem ser avaliados / testados.

Abordagem de IR tradicional

Uma maneira no RI tradicional é preparar a configuração do teste, incluindo:

  • Consultas de candidatos
  • Conjunto de dados de páginas indexadas
  • Conjunto de resultados esperados (incluindo a classificação esperada) para cada consulta

Em seguida, você obtém os resultados reais executando seu mecanismo de pesquisa em consultas candidatas e compara os resultados reais com os resultados esperados usando uma das métricas de recuperação de informações , por exemplo precisão / recuperação ou nDCG . Isso lhe daria uma resposta quantitativa sobre o quão ruim ou bom é o seu mecanismo de pesquisa em relação ao conjunto de resultados esperado (requisito).

Obviamente, a resposta será específica ao contexto. Dependerá particularmente da escolha das consultas candidatas, da intenção e do texto, do conjunto de dados das páginas indexadas e da forma como os resultados esperados foram avaliados. Então, qual era o contexto?

Abordagem de RI interativa / voltada para metas

Outra abordagem, talvez mais prático, seria envolver usuários em potencial e deixá-los avaliar a qualidade dos resultados de uma determinada consulta. Eles podem trazer suas próprias dúvidas ou você pode definir consultas para eles. Podem ser algumas pessoas ou uma comunidade inteira, da qual você pode obter feedback mais implícito sobre a qualidade dos resultados (por exemplo, os resultados clicados são os esperados).

Isolamento do problema

Finalmente, o problema pode ser não avaliar a qualidade geral do mecanismo de pesquisa, mas apenas restringir o motivo da classificação baixa deste resultado de consulta particular. Portanto, eu seguiria o problema que você obteve:

Disseram a você que um resultado de mecanismo de pesquisa por consulta de destino não satisfaz um requisito por sua posição.

e me perguntei:

  • Quais foram os outros resultados com classificação superior a este?
  • Por que eles tiveram classificação mais alta? Posso saber isso pelos snippets de resultado? Talvez correspondam a palavras-chave de consulta, mas com um significado diferente? Então, talvez o texto esteja incorreto? Outra formulação da intenção da consulta melhoraria o resultado?
  • A mesma consulta pode ser formulada de maneira diferente e as mesmas formulações podem ter diferentes intenções de consulta por trás delas. Eu realmente sei qual era a intenção de um pesquisador por trás dessa consulta?
  • Qual é exatamente o requisito? Para aumentar o número de páginas patrocinadas? Ou classifica as páginas mais altas que correspondem à intenção da consulta?

Isso pode ajudá-lo a reproduzir o problema para outras consultas semelhantes.

Resposta

Trabalhei para uma empresa de SEO em 2004.Nosso objetivo era obter resultados de pesquisa naturais / orgânicos na primeira ou segunda página do Google para as frases-chave direcionadas (resultados de pesquisa naturais / orgânicos são os resultados de pesquisa regulares, não aqueles patrocinados pelo Google Ad Words). A empresa era uma start-up e decidiu focar no Google apenas porque tinha mais de 80% do mercado de mecanismos de pesquisa na época e estudos mostraram que os usuários raramente olhavam para além das duas primeiras páginas do Google em busca de uma correspondência de resultado de pesquisa.

A maneira como testamos os resultados foi digitar as frases-chave específicas (combinação de palavras-chave) no Google e ver se a listagem aparecia na primeira ou na segunda página do Google; se sim, foi considerada um sucesso, senão foi considerado um fracasso.

Hoje as coisas mudaram com a publicidade direcionada do Google, então as pessoas podem receber resultados diferentes de computadores diferentes e se estiverem conectadas ao Google Plus, isso pode afetar os resultados também, então não sei se é mesmo possível testar isso.

Comentários

  • Então, simplesmente os resultados do Google foram tratados como referência == resultados esperados?

Resposta

Porque a pergunta menciona “pesquisar res ult pela consulta não satisfaz seu requisito por posição “, parece que o objetivo do teste é garantir que a classificação correta com base na relevância esteja em vigor no algoritmo de pesquisa. Para depurar / aprofundar ainda mais, eu poderia pedir mais detalhes sobre a consulta – foi apenas uma pesquisa de texto simples em um único campo ou envolveu uma combinação de campos, envolveu algum caractere diferente do inglês (diacríticos etc.). Às vezes, o motivo pelo qual um resultado pode ter uma classificação inferior pode ser que alguns caracteres especiais são omitidos na pesquisa ou alguns campos específicos não são indexados devido ao fato de que a pesquisa omite esses campos.

Poderíamos testar

  • Use o mesmo termo / consulta com combinação adicional de campos
  • Veja se o hitmap funciona bem – ou seja, funciona primeiro documento nos resultados da pesquisa realmente tem mais “contagem de termos de pesquisa” do que outros documentos no campo pesquisado – abrir o documento e contar avaliaria isso.
  • Elimine um caractere por vez ou um campo (para vários pesquisa em campo) e, em seguida, verifique se os resultados são relevantes
  • use um sinônimo do termo (para pesquisa de termo) e veja se ele tem uma classificação superior
  • Limite a pesquisa por data ou qualquer outro campo e veja se um conjunto de resultados reduzido o classifica mais alto

Outro método seria apenas chamar a API de pesquisa usando uma ferramenta como o fiddler ou Postman e, em seguida, comparar a classificação retornada com a classificação na IU. Às vezes, ao analisar e carregar a página lateral do cliente, devido a alguns problemas de cache, a classificação pode ser complicada.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *