Deze vraag heeft hier al antwoorden :
Reacties
- Baidu gedraagt zich vaak redelijk braaf. Het is mogelijk dat, aangezien Baidu een Japans / Chinese zoekmachine is, voornamelijk uit China, dat sommige scrapers de naam van de agent gebruiken en bedrieglijk gaan. Dit is misschien wat u ziet. Anders moet ik dit verder onderzoeken.
Antwoord
Je kunt proberen specifieke IP-adressen te blokkeren in uw .htaccess-bestand. Je kunt de bereiken hier vinden.
In robots.txt kun je ook het volgende toevoegen
User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: /
Als u caching-plug-ins of CDN gebruikt, zorg er dan voor dat u uw hele cache leegmaakt.
Opmerkingen
- Alleen de eerste
User-agent: Baiduspider
zou nodig moeten zijn om alle Baidu-spiders te blokkeren (" een niet-hoofdlettergevoelige deelstringovereenkomst " volgens de " standaard " en Baidu ondersteunt naar verluidt de " standaard "). En dit wordt vermeld in de Baidu-helpdocumenten . Het kan echter enkele dagen duren voordat de spider de wijziging inrobots.txt
Answer
Ik denk dat het probleem met uw herschrijfregel de OR
vlag is. Die vlag betekent meestal dat er een tweede herschrijfvoorwaarde aankomt. U heeft maar één voorwaarde.
Hier is een site die een vergelijkbare regel biedt voor het blokkeren van BaiduSpider met een iets andere syntaxis:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F]