O Baiduspider está rastreando meu site mesmo quando proibido pelo robots.txt, como faço para evitar isso? [duplicar]

Esta pergunta já tem respostas aqui :

Comentários

  • O Baidu costuma ser bem comportado. É possível que, como o Baidu é um mecanismo de busca japonês / chinês originário principalmente da China, alguns scrapers estejam usando o nome do agente e se tornando desonestos. Isso pode ser o que você está vendo. Caso contrário, isso é algo que preciso examinar mais a fundo.

Resposta

Você pode tentar bloquear endereços IP específicos em seu arquivo .htaccess. Você pode encontrar os intervalos aqui .

No robots.txt, você também pode adicionar o seguinte

User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: / 

Além disso, se você usar plug-ins de cache ou CDN, certifique-se de limpar todo o seu cache.

Comentários

  • Apenas o primeiro User-agent: Baiduspider deve ser necessário para bloquear todos os spiders do Baidu (" uma correspondência de substring que não diferencia maiúsculas de minúsculas " de acordo com o " padrão " e o Baidu supostamente suporta o " padrão "). E isso é declarado nos documentos de ajuda do Baidu . No entanto, pode levar alguns dias para o spider perceber a mudança para robots.txt

Resposta

Acho que o problema com sua regra de reescrita é o sinalizador OR. Esse sinalizador geralmente significa que há uma segunda condição de reescrita chegando. Você só tem uma condição.

Este é um site que fornece uma regra semelhante para bloquear o BaiduSpider com uma sintaxe ligeiramente diferente:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F] 

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *