Baiduspider crawlt mijn site, zelfs als dit verboden is door robots.txt, hoe kan ik dit voorkomen? [duplicate]

Deze vraag heeft hier al antwoorden :

Reacties

  • Baidu gedraagt zich vaak redelijk braaf. Het is mogelijk dat, aangezien Baidu een Japans / Chinese zoekmachine is, voornamelijk uit China, dat sommige scrapers de naam van de agent gebruiken en bedrieglijk gaan. Dit is misschien wat u ziet. Anders moet ik dit verder onderzoeken.

Antwoord

Je kunt proberen specifieke IP-adressen te blokkeren in uw .htaccess-bestand. Je kunt de bereiken hier vinden.

In robots.txt kun je ook het volgende toevoegen

User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: / 

Als u caching-plug-ins of CDN gebruikt, zorg er dan voor dat u uw hele cache leegmaakt.

Opmerkingen

  • Alleen de eerste User-agent: Baiduspider zou nodig moeten zijn om alle Baidu-spiders te blokkeren (" een niet-hoofdlettergevoelige deelstringovereenkomst " volgens de " standaard " en Baidu ondersteunt naar verluidt de " standaard "). En dit wordt vermeld in de Baidu-helpdocumenten . Het kan echter enkele dagen duren voordat de spider de wijziging in robots.txt

Answer

Ik denk dat het probleem met uw herschrijfregel de OR vlag is. Die vlag betekent meestal dat er een tweede herschrijfvoorwaarde aankomt. U heeft maar één voorwaarde.

Hier is een site die een vergelijkbare regel biedt voor het blokkeren van BaiduSpider met een iets andere syntaxis:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F] 

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *