爬虫面对如此多重复的标签，应该怎么爬才能爬到自己

发布网友发布时间：2022-04-20 15:05

共1个回答

热心网友时间：2023-06-25 06:50

二、爬虫工程师需要掌握哪些技能？我见过这样的说法：“爬虫是低级、重复性很多的工作，没有发展前途”。这是误解。首先，对于程序员来说基本上不存在重复性的工作，任何重复劳动都可以通过程序自动解决。例如博主之前要抓十几个相似度很高但是html结构不太一样的网站，我就写了一个简单的代码生成器，从爬虫代码到单元测试代码都可以自动生成，只要对应html结构稍微修改一下就行了。所以我认为，重复性的劳动在编程方面来说基本上是不存在的，如果你认为自己做的工作是重复性的，说明你比较勤快，不愿意去偷懒。而我还认为，勤快的程序员不是好程序员。下面我根据自己这段时间的工作经历，讲一讲爬虫需要哪些相关的技能。1.基本的编码基础（至少一门编程语言）这个对于任何编程工作来说都是必须的。基础的数据结构你得会吧。数据名字和值得对应（字典），对一些url进行处理（列表）等等。事实上，掌握的越牢固越好，爬虫并不是一个简单的工作，也并不比其他工作对编程语言的要求更高。熟悉你用的编程语言，熟悉相关的框架和库永远是无害。我主要用Python，用Java写爬虫的也有，理论上讲任何语言都可以写爬虫的，不过最好选择一门相关的库多，开发迅速的语言。用C语言写肯定是自找苦吃了。2.任务队列当爬虫任务很大的时候，写一个程序跑下来是不合适的：如果中间遇到错误停掉，重头再来？这不科学我怎么知道程序在哪里失败了？任务和任务之间不应该相互影响如果我有两台机器怎么分工？所以我们需要一种任务队列，它的作用是：讲计划抓取的网页都放到任务队列里面去。然后worker从队列中拿出来一个一个执行，如果一个失败，记录一下，然后执行下一个。这样，worker就可以一个接一个地执行下去。也增加了扩展性，几亿个任务放在队列里也没问题，有需要可以增加worker，就像多一双亏筷子吃饭一样。常用的任务队列有kafka，beanstalkd，celery等。3.数据库这个不用讲了，数据保存肯定要会数据库的。不过有时候一些小数据也可以保存成json或者csv等。我有时想抓一些图片就直接按照文件夹保存文件。推荐使用NoSQL的数据库，比如mongodb，因为爬虫抓到的数据一般是都字段-值得对应，有些字段有的网站有有的网站没有，mongo在这方面比较灵活，况且爬虫爬到的数据关系非常非常弱，很少会用到表与表的关系。4.HTTP知识HTTP知识是必备技能。因为要爬的是网页，所以必须要了解网页啊。首先html文档的解析方法要懂，比如子节点父节点，属性这些。我们看到的网页是五彩斑斓的，只不过是被浏览器处理了而已，原始的网页是由很多标签组成的。处理最好使用html的解析器，如果自己用正则匹配的话坑会很多。我个人非常喜欢xpath，跨语言，表达比价好，但是也有缺点，正则、逻辑判断有点别扭。HTTP协议要理解。HTTP协议本身是无状态的，那么“登录”是怎么实现的？这就要求去了解一下session和cookies了。GET方法和POST方法的区别（事实上除了字面意思不一样没有任何区别）。浏览器要熟练。爬虫的过程其实是模拟人类去浏览器数据的过程。所以浏览器是怎么访问一个网站的，你要学会去观察，怎么观察呢？Developer Tools！Chrome的Developer Tools提供了访问网站的一切信息。从traffic可以看到所有发出去的请求。copy as curl功能可以给你生成和浏览器请求完全一致的curl请求！我写一个爬虫的一般流程是这样的，先用浏览器访问，然后copy as curl看看有哪些header，cookies，然后用代码模拟出来这个请求，最后处理请求的结果保存下来。5.运维这个话题要说的有很多，实际工作中运维和开发的时间差不多甚至更多一些。维护已经在工作的爬虫是一个繁重的工作。随着工作时间增加，一般我们都会学着让写出来的爬虫更好维护一些。比如爬虫的日志系统，数据量的统计等。将爬虫工程师和运维分开也不太合理，因为如果一个爬虫不工作了，那原因可能是要抓的网页更新了结构，也有可能出现在系统上，也有可能是当初开发爬虫的时候没发现反扒策略，上线之后出问题了，也可能是对方网站发现了你是爬虫把你*了，所以一般来说开发爬虫要兼顾运维。所以爬虫的运维我可以提供下面几个思路：首先，从数据增量监控。定向爬虫（指的是只针对一个网站的爬虫）比较容易，一段时间之后对一些网站的数据增量会有一个大体的了解。经常看看这些数据的增加趋势是否是正常就可以了（Grafana）。非定向爬虫的数据增量不是很稳定，一般看机器的网络状况，网站的更新情况等（这方面我的经验不多）。然后看爬虫执行的成功情况。在上面提到了用任务队列控制爬虫工作，这样解耦可以带来很多好处，其中一个就是可以就是可以对一次爬虫执行进行日志。可以在每次爬虫任务执行的时候，将执行的时间、状态、目标url、异常等放入一个日志系统（比如kibana），然后通过一个可视化的手段可以清晰地看到爬虫的失败率。爬虫抛出的Exception。几乎所有的项目都会用到错误日志收集（Sentry），这里需要注意的一点是，忽略正常的异常（比如Connection错误，锁冲突等），否则的话你会被这些错误淹没。

爬虫如何爬取p标签内容

提取首个符合要求的数据。爬虫提取首个符合要求的数据爬取p标签内容，网络爬虫(webcrawler简称爬虫)就是按照一定规则从互联网上抓取信息的程序。

如何解决搜索引擎爬虫重复的抓取问题?

抓取频率过大可以在站长平台调整抓取频率，如果是同一链接段时间过大的抓取，可以调整链接布局，适当采用nofollow标签进行引导。

...标签下的多个并列的li标签中的内容,xpath应该怎么写?

//div[@class="list-wrap"]//li/text()然后用循环，不然所有内容会混在一起。

毕业生必看Python爬虫上手技巧

4、伪装成浏览器某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。所以用 urllib 2直接访问网站经常会出现HTTP Error 403：Forbidden的情况。对有些header要特别留意， Server端会针对这些header 做检查：1.User-Agent有些Server或Proxy会检查该值，用来判断是否是浏览器发起的Request。2.Content-Type...

什么是爬虫和爬虫的基本流程

通常爬虫是从某个网站的某个页面开始，爬取这个页面的内容，找到网页中的其他链接地址，然后从这个地址爬到下一个页面，这样一直不停的爬下去，进去批量的抓取信息。那么，我们可以看出网络爬虫就是一个不停爬取网页抓取信息的程序。爬虫的基本流程：1.发起请求：通过HTTP库向目标站点发起请求，即发送一...

【教你写爬虫】用Java爬虫爬取百度搜索结果!可爬10w+条!

爬虫的核心步骤包括：1）初始化浏览器并打开百度搜索页面；2）模拟用户输入搜索关键词并点击搜索；3）使用代码解析页面，获取每个搜索结果的详细信息；4）重复此过程，处理多个关键词和额外的逻辑，如随机等待、数据保存等。通过这样的通用方法，我们实现了高效的数据抓取。总结来说，爬虫的核心就是模仿人类...

爬虫必备技能xpath的用法和实战

在爬取盗墓笔记时，目标地址为http://seputu.com/，关键步骤包括分析网页结构，提取标题和章节链接，再通过循环li标签获取小说内容。以下是一个实际的爬虫代码片段：最后，XPath与CSS选择器虽然都是解析库，但各有特点。XPath更适用于复杂结构的文档，而CSS更直观。通过不断实践，熟练掌握XPath，你将能更...

python爬虫怎么爬取父标签里子标签的内容

handle_starttag每遇见一个以"<"开始的tag回调一次，handle_endtag每遇见一个"</"标识的结束时回调一次，你的text3和text5位于结束标记之后，因此要自己手动用flag标记下，然后在handle_data里处理对应的数据！

Python实用技术——爬虫(一):爬虫基础

3，爬取之后如何使用二，HTTP协议 1，万维网 2，协议：三，HTTP知识四，HTTP请求方法：五，HTTP的响应六，HTTP的响应状态码八，HTTPS协议九，初始HTML文档十，HTML的标签学完Python的入门以后，我们便开始深入的学习如何更好的玩Python，寓教于乐。在学习的过程中玩，听人家说，爬虫最容易让...

自我发掘爬虫实战1:宅男女神网妹子图片批量抓取,分类保存到本地和Mongo...

初心与目标身为金融学大三的编程新手，凭借@静觅老师的爬虫课程，我怀揣梦想，立志在学期末前完成一个综合项目：从爬取、分析到可视化，实现数据的全面掌握。所需工具和资源环境配置：Windows 8，Python 3.5，使用requests、re、os、pymongo、BeautifulSoup和time库，IDE是PyCharm。参考学习：Python...

怎么没有重复所有项目标签微信标签重复的人重复项目标签 2007版excel重复项目标签 2003版excel重复项目标签 excel数据透视表行标签重复 excel行标签怎么设置透视表重复项目标签数据透视表行标签重复不合并