电脑上怎么发现有爬虫程序
发布网友
发布时间:2022-04-28 22:35
我来回答
共1个回答
热心网友
时间:2022-06-24 07:49
网络爬虫通过设置HTTP请求头信息的字段来模拟普通浏览器访问网站。因此,网络管理员通常会检查报头信息中的UserAgent字段,分析access_log统计访问,并根据IP、请求时间、频率和访问路径来确认黑名单。
然而,恶意的网络爬虫通常不会留下任何用户代理字段或伪装用户代理。因此,更可靠的方法是判断请求者的ip对应的主机名是否是正常浏览器自己的主机。更何况你可以在代码中做一个全局钩子,识别爬虫,引流到一个特殊的路径,简直太棒了。但是手动找爬虫还是很累的。对于这些逻辑,我们可以单独打开一个日志,定期在redis中分析这些简单的数据,找出上述规则的请求,记录在日志系统中。这样就可以在日志系统中直接过滤这一类日志,就可以看到所有识别出来的爬虫,并把这些爬虫特性添加到处理程序中。