Questa domanda ha già una risposta qui :
Commenti
- Baidu si comporta spesso abbastanza bene. È possibile che, poiché Baidu è un motore di ricerca giapponese / cinese principalmente dalla Cina, alcuni scraper stanno usando il nome dellagente e stanno diventando canaglia. Questo potrebbe essere quello che stai vedendo. Altrimenti, è qualcosa che devo approfondire.
Risposta
Puoi provare a bloccare indirizzi IP specifici nel tuo file .htaccess. Puoi trovare gli intervalli qui .
In robots.txt puoi anche aggiungere quanto segue
User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: /
Inoltre, se utilizzi plug-in per la memorizzazione nella cache o CDN, assicurati di svuotare tutta la cache.
Commenti
- Solo il primo
User-agent: Baiduspider
dovrebbe essere necessario per bloccare tutti gli spider Baidu (" una sottostringa senza distinzione tra maiuscole e minuscole che corrisponde " secondo lo " standard " e secondo quanto riferito Baidu supporta lo " standard "). E questo è indicato nella documentazione della guida di Baidu . Tuttavia, possono essere necessari alcuni giorni prima che lo spider rilevi la modifica arobots.txt
Risposta
Penso che il problema con la tua regola di riscrittura sia il flag OR
. Quella bandiera di solito significa che è in arrivo una seconda condizione di riscrittura. Hai solo una condizione.
Ecco un sito che fornisce una regola simile per bloccare BaiduSpider con una sintassi leggermente diversa:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F]