Program Baiduspider prochází moje stránky, i když je zakázán souborem robots.txt, jak tomu mohu zabránit? [duplicate]

Tato otázka již má odpovědi zde :

Komentáře

  • Baidu se často chová docela dobře. Je možné, že protože Baidu je japonský / čínský vyhledávač většinou z Číny, některé škrabky používají jméno agenta a jsou nečestní. To může být to, co vidíte. Jinak je to něco, čím se musím podrobněji zabývat.

Odpovědět

Můžete zkusit zablokovat konkrétní IP adresy ve vašem souboru .htaccess. Rozsahy najdete zde .

V souboru robots.txt můžete také přidat následující

User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: / 

Pokud také používáte doplňky pro ukládání do mezipaměti nebo CDN, nezapomeňte vymazat celou mezipaměť.

Komentáře

  • K blokování všech pavouků Baidu (" shoda řetězce bez rozlišování malých a velkých písmen User-agent: Baiduspider by měla být nutná pouze první id = „e632ac9d81″>

podle " standardu " a Baidu údajně podporuje " standardní "). A to je uvedeno v dokumentech nápovědy Baidu . Může však trvat několik dní, než pavouk změnu přijme robots.txt

odpověď

Myslím, že problém s vaším pravidlem přepsání je příznak OR. Tento příznak obvykle znamená, že přichází druhá podmínka přepsání. Máte pouze jednu podmínku.

Zde je web , který poskytuje podobné pravidlo pro blokování BaiduSpider s mírně odlišnou syntaxí:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F] 

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *