Baiduspider sta eseguendo la scansione del mio sito anche se proibito da robots.txt, come posso impedirlo? [duplicate]

Questa domanda ha già una risposta qui :

Commenti

  • Baidu si comporta spesso abbastanza bene. È possibile che, poiché Baidu è un motore di ricerca giapponese / cinese principalmente dalla Cina, alcuni scraper stanno usando il nome dellagente e stanno diventando canaglia. Questo potrebbe essere quello che stai vedendo. Altrimenti, è qualcosa che devo approfondire.

Risposta

Puoi provare a bloccare indirizzi IP specifici nel tuo file .htaccess. Puoi trovare gli intervalli qui .

In robots.txt puoi anche aggiungere quanto segue

User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: / 

Inoltre, se utilizzi plug-in per la memorizzazione nella cache o CDN, assicurati di svuotare tutta la cache.

Commenti

  • Solo il primo User-agent: Baiduspider dovrebbe essere necessario per bloccare tutti gli spider Baidu (" una sottostringa senza distinzione tra maiuscole e minuscole che corrisponde " secondo lo " standard " e secondo quanto riferito Baidu supporta lo " standard "). E questo è indicato nella documentazione della guida di Baidu . Tuttavia, possono essere necessari alcuni giorni prima che lo spider rilevi la modifica a robots.txt

Risposta

Penso che il problema con la tua regola di riscrittura sia il flag OR. Quella bandiera di solito significa che è in arrivo una seconda condizione di riscrittura. Hai solo una condizione.

Ecco un sito che fornisce una regola simile per bloccare BaiduSpider con una sintassi leggermente diversa:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F] 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *