Python爬虫错误合集及解决方案

发布网友发布时间：2024-09-28 07:13

共1个回答

热心网友时间：2024-11-05 18:39

记录一下大家在使用Python爬虫过程中可能会遇到的错误以及相应解决办法。

设置请求头错误，如果像下面这种写法那样写，我们请求网站的时候是不会用到自己设置的header的，还是默认的header进行的请求，所以访问一下有限制的网站就会失败。正确的做法应该是设置请求头以正确传达信息给服务器。

header编码错误，有时候我们从浏览器直接复制请求头中的Cookie时，一定要注意先点击原始内容再复制，否则会出现解码错误。为保险起见，复制的Cookie字符串前面可以加r防止包含特殊字符转义。

获取网页HTML乱码，出现这种情况，都是解码问题。可通过浏览器查看网页源代码，确定网页编码格式后在请求时设置对应解码格式，如未设置编码格式默认为utf-8。

二进制数据解码错误，需要将获取的bytes数据转为普通字符串，若出现解码错误，确保使用正确的编码格式decode，比如utf-8。如果使用对应的编码格式依然出错，尝试用兼容的编码格式进行解码。

使用代理ip无效，在使用代理爬取网站时，未区分http和https协议会导致问题。正确设置应区分代理协议并适用于请求类型，参考相关解决办法。

保存内容到EXCEL乱码，爬取到的内容保存到excel文件中时，若显示乱码，可能是因为编码设置问题。根据系统默认编码，如Windows默认为gbk2312，而你保存为utf-8编码时会导致乱码，解决办法是在写入csv文件时加一个 encoding="gbk"。在苹果系统中使用utf-8编码不会乱码。

持续更新中......，在后续更新中，将提供更多关于Python爬虫错误解决的办法和相关技巧。

如需转载，请注明来源，以确保信息的公正传播。