Questa domanda ha già una risposta qui :
Commenti
- Baidu si comporta spesso abbastanza bene. È possibile che, poiché Baidu è un motore di ricerca giapponese / cinese principalmente dalla Cina, alcuni scraper stanno usando il nome dellagente e stanno diventando canaglia. Questo potrebbe essere quello che stai vedendo. Altrimenti, è qualcosa che devo approfondire.
Risposta
Puoi provare a bloccare indirizzi IP specifici nel tuo file .htaccess. Puoi trovare gli intervalli qui .
In robots.txt puoi anche aggiungere quanto segue
User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: /
Inoltre, se utilizzi plug-in per la memorizzazione nella cache o CDN, assicurati di svuotare tutta la cache.
Commenti
- Solo il primo
User-agent: Baiduspiderdovrebbe essere necessario per bloccare tutti gli spider Baidu (" una sottostringa senza distinzione tra maiuscole e minuscole che corrisponde " secondo lo " standard " e secondo quanto riferito Baidu supporta lo " standard "). E questo è indicato nella documentazione della guida di Baidu . Tuttavia, possono essere necessari alcuni giorni prima che lo spider rilevi la modifica arobots.txt
Risposta
Penso che il problema con la tua regola di riscrittura sia il flag OR. Quella bandiera di solito significa che è in arrivo una seconda condizione di riscrittura. Hai solo una condizione.
Ecco un sito che fornisce una regola simile per bloccare BaiduSpider con una sintassi leggermente diversa:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F]