用python写爬虫有哪些框架?

发布网友发布时间：2022-04-23 09:38

我来回答

共5个回答

懂视网时间：2022-04-28 05:31

python实现网络爬虫的方法：1、使用request库中的get方法，请求url的网页内容；2、【find()】和【find_all()】方法可以遍历这个html文件，提取指定信息。

python实现网络爬虫的方法：

第一步：爬取

使用request库中的get方法，请求url的网页内容

编写代码

[root@localhost demo]# touch demo.py
[root@localhost demo]# vim demo.py

#web爬虫学习 -- 分析
#获取页面信息
 
#输入：url
#处理：request库函数获取页面信息，并将网页内容转换成为人能看懂的编码格式
#输出：爬取到的内容
 
import requests
 
def getHTMLText(url):
 try:
 r = requests.get( url, timeout=30 )
 r.raise_for_status() #如果状态码不是200，产生异常
 r.encoding = 'utf-8' #字符编码格式改成 utf-8
 return r.text
 except:
 #异常处理
 return " error "
 
url = "http://www.baidu.com"
print( getHTMLText(url) )

[root@localhost demo]# python3 demo.py

第二步：分析

使用bs4库中BeautifulSoup类，生成一个对象。find()和find_all()方法可以遍历这个html文件，提取指定信息。

编写代码

[root@localhost demo]# touch demo1.py
[root@localhost demo]# vim demo1.py
#web爬虫学习 -- 分析
#获取页面信息
 
#输入：url
#处理：request库获取页面信息，并从爬取到的内容中提取关键信息
#输出：打印输出提取到的关键信息
 
import requests
from bs4 import BeautifulSoup
import re
 
def getHTMLText(url):
 try:
 r = requests.get( url, timeout=30 )
 r.raise_for_status() #如果状态码不是200，产生异常
 r.encoding = 'utf-8' #字符编码格式改成 utf-8
 return r.text
 except:
 #异常处理
 return " error "
 
def findHTMLText(text):
 soup = BeautifulSoup( text, "html.parser" ) #返回BeautifulSoup对象
 return soup.find_all(string=re.compile( '百度' )) #结合正则表达式，实现字符串片段匹配
 
url = "http://www.baidu.com"
text = getHTMLText(url) #获取html文本内容
res = findHTMLText(text) #匹配结果
 
print(res) #打印输出

[root@localhost demo]# python3 demo1.py

相关免费学习推荐：python视频教程

热心网友时间：2022-04-28 02:39

1、Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求。
2、pyspider
是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。
3、Crawley可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。
4、Portia是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核;可视化爬取内容，不需要任何开发专业知识;动态匹配相同模板的内容。
5、Grab是一个用于构建Web刮板的Python框架。借助Grab，您可以构建各种复杂的网页抓取工具，从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容，例如与HTML文档的DOM树进行交互。

热心网友时间：2022-04-28 03:57

以下是搜索来源于网络：
1)Scrapy:很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。

2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等

3)Portia:可视化爬取网页内容

4)newspaper:提取新闻、文章以及内容分析

5)python-goose:java写的文章提取工具

6)Beautiful Soup:名气大，整合了一些常用爬虫需求。缺点：不能加载JS。

7)mechanize:优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。

8)selenium:这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。

9)cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高。

热心网友时间：2022-04-28 05:32

最强大的框架毫无疑问是Scrapy，简单点的框架有pyspider，这是中国人开发的框架，带有WEB UI界面。
框架功能强大，一般个人的小项目用不到框架，可以尝试一些简单的爬虫库，比如requests、pyppeteer、aiohttp，后两者需要asyncio相关的知识。

热心网友时间：2022-04-28 07:23

1、Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。
可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url
pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求。
2、pyspider
是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用常用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。
3、Crawley可以高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。
4、Portia是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站!简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核;可视化爬取内容，不需要任何开发专业知识;动态匹配相同模板的内容。
5、Grab是一个用于构建Web刮板的Python框架。借助Grab，您可以构建各种复杂的网页抓取工具，从简单的5行脚本到处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容，例如与HTML文档的DOM树进行交互。

爬虫软件有哪些

爬虫软件有多种，常见的主要有：1. Scrapy Scrapy是一个用Python编写的强大的网络爬虫框架。它可以快速地抓取网页并从中提取结构化的数据。Scrapy框架易于扩展，支持多种数据存储方式，如CSV、JSON等。它还提供了中间件接口，方便用户进行各种定制功能。2. PySpider PySpider是一个基于Python和Twisted的网络...

常用的Python爬虫工具列表有哪些

urllib, requests, grab, pycurl, urllib3, httplib2, RoboBrowser, MechanicalSoup, mecanize, socket异步工具: treq, aiohttp网络爬虫框架功能齐全的框架: grab, Scrapy, pyspider, cola解析器与清理 HTML/XML解析器: lxml, cssselect, pyquery, BeautifulSoup, html5lib, feedparser, MarkupSafe, xht...

Python中的爬虫框架有哪些呢?

Python中有很多优秀的爬虫框架，常用的有以下几种：1. Scrapy：Scrapy是一个功能强大的开源爬虫框架，它提供了完整的爬虫流程控制和数据处理功能，支持异步和分布式爬取，适用于大规模的数据采集任务。2. BeautifulSoup：BeautifulSoup是一个用于解析HTML和XML文档的Python库，它提供了简单灵活的API，可以方便地...

python爬虫框架有哪些

1.ScrapyScrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。（推荐学习：Python视频教程）项目地址：https://scrapy.org/2.PySpiderpyspider 是一个用python实现的功能强...

Python写爬虫都用到什么库

二、Python网络爬虫框架Python网络爬虫框架主要包括：grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。三、HTML/XML解析器?●lxml：C语言编写高效HTML/ XML处理库。支持XPath。●cssselect：解析DOM树和CSS选择器。●pyquery：解析DOM树和jQuery选择器。●BeautifulSoup：低效HTML/ XML处理库，纯...