发布网友 发布时间:2023-04-09 22:42
共2个回答
热心网友 时间:2023-09-12 02:23
要防止爬虫爬你的网站,就必须区分出爬虫和正常用户的行为区别。单单就单次请求你是无法区分出来的,因为前端的所有用户行为,爬虫都可以模拟。所以比较通用的做法是统计单个IP在一定时间范围内的请求数量,超过了一定的量就认为是爬虫,把它阻断掉。也许你自己有压测程序,把他们加入白名单就可以了。当然,这样并不能就真的可以阻断爬虫了,因为道高一尺魔高一丈呀,就我知道的一个爬虫他们准备了200台手机和手机卡,同一时间100台同时爬,因为用的手机卡,你看到的IP基本都是不一样的,爬2分钟断网,另100台爬,IP就又变了,断网的手机卡再联网IP也基本会变,所以基本就是达到了一个IP爬两分钟就自动换了一个IP,他们也会根据你统计的时间*来调整他们的时间,所以统计IP这一招再这个方法中就不行了。对于不需要登录的页面什么cookie,agent,jwt等等都是可以对付的,所以就必须加入其他因素,比如同一个IP在最近的N个独立页面的请求平均间隔时间,如果都是小于1秒就可以认定不是自然人在请求,因为自然人速度没这么快。再比如同一个IP在最近的N个请求里面不存在合理的请求顺序,因为爬虫一般是拿了一个页面以后按顺序再请求里面的链接,而自然人不会这样等等的规则,这些规则看上去就比较复杂了,需要根据自己的业务去指定,然后异步的去判断,防止影响正常的请求速度。
这里只提供一种思路,希望对你有帮助。
热心网友 时间:2023-09-12 02:23
网站防采集是指网站为阻止非法采集而采取的技术措施。常见的防采集措施包括登录采集、验证码、数据加密、反馈虚假数据、网站禁止访问等。当出现验证码时,可以在运行界面的左上角选择【暂停】按钮,手动通过验证后,点击继续按钮,任务即可继续采集。八爪鱼已经对接第三方资源,网页登录和信息查询时需输入验证码。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情