Baiduspider genomsöker min webbplats även när det är förbjudet av robots.txt, hur förhindrar jag det? [duplicera]

<åt sidan class = "s-notice s-notice__info js-post-notice mb16" role = "status">

Denna fråga har redan svar här :

Kommentarer

  • Baidu är ofta ganska välskött. Det är möjligt att eftersom Baidu är en japansk / kinesisk sökmotor, mestadels från Kina, att vissa skrapor använder agentnamnet och blir skurkiga. Det här kan vara vad du ser. Annars är det här jag behöver undersöka mer.

Svar

Du kan försöka blockera specifika IP-adresser i din .htaccess-fil. Du hittar intervallen här .

I robots.txt kan du också lägga till följande

User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: / 

Om du använder caching-plugins eller CDN, se till att rensa all cache.

Kommentarer

  • Endast den första User-agent: Baiduspider bör vara nödvändig för att blockera alla Baidu-spindlar (" en skiftlägeskänslig substratmatch " enligt " standard " och Baidu stöder enligt uppgift " standard "). Och detta anges i Baidu hjälpdokument . Det kan dock ta några dagar för spindeln att hämta ändringen till robots.txt

Svar

Jag tror att problemet med din omskrivningsregel är OR -flaggan. Den flaggan betyder vanligtvis att det kommer ett andra omskrivningsvillkor. Du har bara ett villkor.

Här är en webbplats som ger en liknande regel för att blockera BaiduSpider med lite annorlunda syntax:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F] 

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *