防止垃圾爬虫抓取网站数据的思路分享


原文地址:防止垃圾爬虫抓取网站数据的思路分享

本篇文章分享了三种防止垃圾爬虫的思路,根据该思路可以防止垃圾爬虫抓取你的网站数据。

今天查看日志发现垃圾爬虫抓取网站文章,都是以BaiduSpider和Googlebot的身份访问网站的。可能在是在v2ex网站上留了博客地址被某些垃圾站盯上了。

这里我就做一下反爬虫的思路分享。

第一、垃圾爬虫模仿搜索引擎抓取网站内容

这种情况,可以通过判断IP段和头部来判断。抓取我网站的爬虫IP段都是47开头的,但是这些IP段百度根本就没有,我从建站开始已经统计了很多百度的IP地址段,从来没遇到过47开头的百度爬虫。遇到这种情况,可以直接禁止这些ip段访问即可。

PS:我查了这些垃圾爬虫的ip,都是阿里云服务器地址。

第二、没有模仿搜索引擎爬虫抓取网站内容

这种情况需要在网页放置一段请求服务器端的js脚本,当真正的用户使用浏览器访问网站的时候js脚本是可以执行的,把这些js请求数据的IP地址储存到数据库。

另外需要统计没有使用浏览器访问网站的IP地址,这个需要服务器端语言统计,统计的是非ajax请求数据。拿这种数据和统计的ajax请求ip做对比,如果既有js请求的IP地址,又有非ajax请求的IP地址,这个一般是真实用户。

如果这些ip地址没有ajax请求,肯定是垃圾爬虫(Baidu和google的除外)。

第三、无头浏览器爬虫反爬

无头浏览器是有js执行环境的,所以第二种方法不可取。但是无头浏览器有一个标识,具体我忘了,等查到资料了再做分享。

评论

登录后评论

服务器优惠活动

Top