用Python的BeautifulSoup解析网页时,里面的中文显示乱码,要怎样才能正 ...

发布网友发布时间：2022-04-30 05:50

共3个回答

热心网友时间：2022-05-11 00:17

转码啊，先把你的爬过来的内容转成utf8或者gbk(这样要结合你网站使用的编码)，这种解决方案网上还是很多的，就不一一列举了。如果你都试过了，可以把网站贴出来看看。

热心网友时间：2022-05-11 01:35

具体要看一下你的源代码才好说。下面是一个显示中文的例子：

Python 2.7.13 (default, Aug 26 2017, 01:08:45)
[GCC 4.8.5 20150623 (Red Hat 4.8.5-11)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> d = {'a': '你要去哪里？', 'b': 'talk me to your heart'}
>>> print(d)
{'a': '\xe4\xbd\xa0\xe8\xa6\x81\xe5\x8e\xbb\xe5\x93\xaa\xe9\x87\x8c\xef\xbc\x9f', 'b': 'talk me to your heart'}
>>> for k, v in d.items():
... print k, ':', v
...
a : 你要去哪里？
b : talk me to your heart
>>>

...里面的中文显示乱码,要怎样才能正常显示中文?

python编程中中文输出乱码UnicodeEncodeError: 'ascii' codec can...

其实按照你的代码的逻辑来做是没有错的，无法显示成utf-8编码的文本其实是因为在request请求的时候，按照网页的标识转了码，接着BeautifulSoup把已经是utf-8的文本又强转了一次utf-8编码，导致了无法正确的显示，以想要拿到的时间为例，其实程序的目标字符串应该如下：-*- coding: utf-8 -*-'''我们...

为什么python beautifulsoup解析网页后网页内容丢失

可能的原因是由于你处理的文档太大，而处理的解析器缓存不够造成的信息丢失。可以换一个解析器试试，你使用的应该是lxml吧，试试html.parser。soup = BeautifulSoup(page.text,"html.parser")应该是这样的

python 使用BeautifulSoup库提取div标签中的文本内容

因为你的html不是合法的xml格式，标签没有成对出现，只能用html解析器 from bs4 import BeautifulSoups = """714659079qqcom 2014/09/10 10:14"""soup = BeautifulSoup(s, "html.parser")print soupprint soup.get_text()如果你想用正则的话，只要把标签匹配掉就可以了 import res = """71...

Python+requests 爬取网站遇到中文乱码怎么办

对于Python+requests爬取网站遇到中文乱码的问题，您可以：1. 设置编码：在使用requests库发送请求时，可以通过设置`response.encoding`来指定网页的编码方式，例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码，避免中文乱码问题。2. 使用自动识别功能：八爪鱼采集器...

我利用jsoup解析一个html网页,但是有的地方网页里面有,但是我解析的时...

1.你贴的python代码，缩进有问题。请自己重新确定代码缩进是正常的，且贴出来正常的代码给我们看。2.请确保：你代码中所处理的内容，的确是你所截图贴出来的内容 -> 程序抓取出来的内容，有时候未必和你查看网页源码看到的内容是一样的。3.你的beautifulSoup使用的方式，就不太对。

怎样用Python的BeautifulSoup修改页面里的元素?

BeautifulSoup是不能够直接修改tag的值的，但是可以修改tag中的属性的值：例如，把rows从142改为153，把cols改为33等等；如果只是输出显示的话，可以使用Python的replace：mystring='<textarea name="text" rows="142" cols="23" wrap="physic">sdasd</textarea>'soup=BeautifulSoup(mystring)print str...

BeautifulSoup 的正确使用方法是什么?

BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。它是一个灵活又方便的网页解析库，处理高效，支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息。以下是 BeautifulSoup 的正确使用方法：1. 导入...

beautifulsoup基本使用

BeautifulSoup基本使用答案：BeautifulSoup是一个用于解析HTML和XML文档的Python库，常用于网页数据抓取。其基本使用步骤如下：1. 导入BeautifulSoup库。2. 使用BeautifulSoup初始化HTML或XML文档。3. 使用选择器或方法查找特定元素。4. 提取所需数据或进行进一步操作。详细解释：1. 导入BeautifulSoup库首先，你...

如何python提取txt文档里面全部的中文和中文符号,并且保存为新的txt...

用beautifulsoup处理啊，去除英文和符号就是中文啦 import rezhongwen=re.sub(r'[\w\<\>/\,=:"\']','',text')

用ie访问网页时一般要等到当浏览某个网页时该网页已经在使用ie浏览网页时浏览网页时总是弹出其它网页保存ie浏览器中网页时显示此网页时出现了问题用ie浏览器浏览网页时浏览网页时用到的协议该网页暂时无法显示