Baiduspider gennemsøger mit websted, selv når det er forbudt af robots.txt, hvordan forhindrer jeg det? [duplikat]

Dette spørgsmål har allerede svar her :

Kommentarer

  • Baidu er ofte ret opført. Det er muligt, at da Baidu er en japansk / kinesisk søgemaskine for det meste fra Kina, at nogle skrabere bruger agentnavnet og bliver skurk. Dette kan være hvad du ser. Ellers er dette noget, jeg skal undersøge nærmere.

Svar

Du kan prøve at blokere specifikke IP-adresser i din .htaccess-fil. Du kan finde intervallerne her .

I robots.txt kan du også tilføje følgende

User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: / 

Hvis du bruger cacheplugins eller CDN, skal du også rydde al din cache.

Kommentarer

  • Kun den første User-agent: Baiduspider skal være nødvendig for at blokere alle Baidu-edderkopper (" en sagfølsom understrengsmatch " i henhold til " standard " og Baidu understøtter angiveligt " standard "). Og dette er angivet i Baidu-hjælpedokumenter . Det kan dog tage nogle dage for edderkoppen at hente ændringen til robots.txt

Svar

Jeg tror, at problemet med din omskrivningsregel er OR -flagget. Dette flag betyder normalt, at der kommer en anden omskrivningsbetingelse. Du har kun en betingelse.

Her er et websted , der giver en lignende regel til blokering af BaiduSpider med lidt anden syntaks:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F] 

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *