Baiduspider explore mon site même lorsquil est interdit par robots.txt, comment puis-je lempêcher? [dupliquer]

Cette question a déjà des réponses ici :

Commentaires

  • Baidu se comporte souvent assez bien. Il est possible que, puisque Baidu est un moteur de recherche japonais / chinois principalement chinois, certains gratteurs utilisent le nom de lagent et deviennent des voyous. Cest peut-être ce que vous voyez. Sinon, cest quelque chose que je dois approfondir.

Réponse

Vous pouvez essayer de bloquer des adresses IP spécifiques dans votre fichier .htaccess. Vous pouvez trouver les plages ici .

Dans le fichier robots.txt, vous pouvez également ajouter ce qui suit

User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: / 

De plus, si vous utilisez des plug-ins de mise en cache ou CDN, assurez-vous de vider tout votre cache.

Commentaires

  • Seul le premier User-agent: Baiduspider devrait être nécessaire pour bloquer tous les araignées Baidu (" une correspondance de sous-chaîne insensible à la casse " selon la " standard " et Baidu prendrait en charge la " standard "). Et cela est indiqué dans la documentation daide Baidu . Cependant, cela peut prendre quelques jours pour que laraignée récupère le changement en robots.txt

Réponse

Je pense que le problème avec votre règle de réécriture est le drapeau OR. Cet indicateur signifie généralement quune deuxième condition de réécriture est à venir. Vous navez quune seule condition.

Voici un site qui fournit une règle similaire pour bloquer BaiduSpider avec une syntaxe légèrement différente:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F] 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *