爬虫太多添加robots文件来禁止一些爬虫访问网站
自从网站的统计插件升级后,每天的uv/pv数据直线下降,但是每天的访问量却没有变化,访问量笔者采用的是统计每篇文章接口的调用量,所有有理由怀疑是爬虫导致的。
之前网站一直都是没有做任何限制的,但是从某一天后发现网站运行比较慢,从登录后台管理的情况看尤为明显,页面加载都要一两秒,之前都不会出现这种情况。
所以今天给网站添加了一个robots.txt文件来禁止一些爬虫,从网站的访问日志来看,有两个爬虫成为禁用目标。
AhrefsBot、SemrushBot 这两个爬虫不出意外几乎是24小时在爬取内容,之前有通过nginx来限制,但是有一次配置重置掉了也就没再加,那种方式相对来水比较麻烦。
虽然添加robots这种方式就是防君子不防小人,如果对方遵守这个约定那倒还好,不遵守也没办法,不过还是要试一下,后面再检查一下日志看看到底禁止访问后还会不会再访问。
具体禁用代码为:
robots.txt
# robots.txt
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: *
Disallow:
Crawl-delay: 120
Disallow: /cgi-bin/
发表评论 (审核通过后显示评论):