python 爬虫怎么入门
发布网友
发布时间:2022-04-21 16:59
我来回答
共1个回答
热心网友
时间:2022-04-10 09:57
爬虫很难一句两句说清楚,给你列一个要学的清单,算是有个方向吧:
1、基本的爬虫工作原理
2、基本的http抓取工具,scrapy
3、Bloom Filter: Bloom Filters by Example
4、如果需要大规模网页抓取,你需要学习分布式爬虫的概念。其实没那么玄乎,你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。 rq和Scrapy的结合
5、后续处理,网页析取( ),存储(Mongodb)