Esta pergunta já tem respostas aqui :
Comentários
- O Baidu costuma ser bem comportado. É possível que, como o Baidu é um mecanismo de busca japonês / chinês originário principalmente da China, alguns scrapers estejam usando o nome do agente e se tornando desonestos. Isso pode ser o que você está vendo. Caso contrário, isso é algo que preciso examinar mais a fundo.
Resposta
Você pode tentar bloquear endereços IP específicos em seu arquivo .htaccess. Você pode encontrar os intervalos aqui .
No robots.txt, você também pode adicionar o seguinte
User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: /
Além disso, se você usar plug-ins de cache ou CDN, certifique-se de limpar todo o seu cache.
Comentários
- Apenas o primeiro
User-agent: Baiduspider
deve ser necessário para bloquear todos os spiders do Baidu (" uma correspondência de substring que não diferencia maiúsculas de minúsculas " de acordo com o " padrão " e o Baidu supostamente suporta o " padrão "). E isso é declarado nos documentos de ajuda do Baidu . No entanto, pode levar alguns dias para o spider perceber a mudança pararobots.txt
Resposta
Acho que o problema com sua regra de reescrita é o sinalizador OR
. Esse sinalizador geralmente significa que há uma segunda condição de reescrita chegando. Você só tem uma condição.
Este é um site que fornece uma regra semelhante para bloquear o BaiduSpider com uma sintaxe ligeiramente diferente:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F]