Baiduspider gjennomsøker nettstedet mitt selv når det er forbudt av robots.txt. Hvordan forhindrer jeg det? [duplikat]

Dette spørsmålet har allerede svar her :

Kommentarer

  • Baidu er ofte ganske oppført. Det er mulig at siden Baidu er en japansk / kinesisk søkemotor for det meste fra Kina, at noen skrapere bruker agentnavnet og blir useriøse. Dette kan være det du ser. Ellers er dette noe jeg må se nærmere på.

Svar

Du kan prøve å blokkere bestemte IP-adresser. i .htaccess-filen. Du finner områdene her .

I robots.txt kan du også legge til følgende

User-agent: Baiduspider User-agent: baiduspider User-agent: Baiduspider+ User-agent: Baiduspider-video User-agent: Baiduspider-image Disallow: / 

Hvis du bruker hurtigbuffer-plugins eller CDN, må du også tømme all hurtigbufferen.

Kommentarer

  • Bare den første User-agent: Baiduspider bør være nødvendig for å blokkere alle Baidu-edderkopper (" et tilfelle ufølsomt substringkamp " i henhold til " standard " og Baidu støtter angivelig " standard "). Og dette er angitt i Baidu hjelpedokumenter . Det kan imidlertid ta noen dager for edderkoppen å hente endringen til robots.txt

Svar

Jeg tror problemet med omskrivingsregelen din er OR -flagget. Det flagget betyr vanligvis at det kommer en ny omskrivingsbetingelse. Du har bare en betingelse.

Her er et nettsted som gir en lignende regel for å blokkere BaiduSpider med litt annen syntaks:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} ^Baiduspider.* [NC] RewriteRule .* - [F] 

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *