Python爬虫必杀技:XPath

发布网友发布时间：2024-09-30 18:17

共1个回答

热心网友时间：2024-10-27 19:36

Python爬虫利器：深入解析XPath

XPath，全称XML路径语言，是针对XML文档结构进行定位的工具。它以树状结构为基础，支持元素节点、属性节点和文本节点的选择，用于在复杂的数据结构中精准查找所需信息。与BeautifulSoup4类似，但操作方式有别。要使用XPath，需先安装lxml库：`pip install lxml`。

实战案例分析

以豆果网美食页面为例（douguo.com/jingxuan/0），目标是抓取菜谱名称、作者、浏览量等信息。每页有24个推荐菜谱，页面节点结构如下：

通过选择id为jxlist的ul元素，即可获取所有li标签中的数据。

XPath节点选取语法

XPath通过路径表达式选取节点，包括父、子、同胞等关系。基本语法包括路径表达式和方括号内的特定节点选择，还可配合通配符和功能函数。

案例实战

首先，使用requests抓取网页，然后运用XPath:

美食详情页链接：通过a标签的href属性获取，如`//a[@href]`
图片链接：`//a/img/@src`
菜名：通过alt属性或div的第一个a标签，如`//a[1]/@alt` 或 `//div/a[1]`
作者名：提取div的第二个a标签的文本，可能需要正则清理，如`//div/a[2]/text()`
浏览量和收藏量：`//span[@class='number']`

分页处理

注意到页面存在分页，如'douguo.com/jingxuan/0'、'douguo.com/jingxuan/24'等，可以通过解析url规律进行遍历。

学习资源推荐

为帮助Python初学者和进阶者，我们推荐一套视频教程，轻松掌握Python语言。获取更多学习资料包，回复"Python"即可获取，有任何学习问题，欢迎私信交流。