python 用 beautifulsoup 获得的东西

发布网友发布时间：2022-04-30 05:50

共1个回答

热心网友时间：2022-04-18 14:37

一、你取到的跟浏览器不一样，这一般是因为内容是js生成或者js以ajax取到然后更新进去的。
想要自己写代码解决恐怕你要自己分析一下网页所带的js的功能了，或者想偷懒的话用webbrowser之类的模块通过浏览器来取得内容。
二、要取div的id属性用BeautifulSoup即可达到目的，要是装了PyQuery的就更简单，下面给个BeautifulSoup的例子：
from bs4 import BeautifulSoup
sp = BeautifulSoup('<div id="z"></div>')
assert(sp.div['id'],'z')
print sp.div['id']追问Beautifulsoup那个部分我还会用一点，现在关键就是取到的网页
里面本来就没有内容，我要怎么取出那部分呢？用的是python写的，ch = pycurl.Curl()，再用setopt之类处理。js生成或者js以ajax取到然后更新进去的。我要怎么弄呢？感激不尽！

追答pycurl是不会执行js的，要手写恐怕你要耐必的读读的你取的这个页面的js文件了。
或者可以偷偷小懒用firebug,IE（9+）调试工具看看有哪些ajax操作，然后对着js文件猜一猜，运气好应该可以省不少时间。

Python爬虫快速入门,BeautifulSoup基本使用及实践

使用选择器（如类、id、标签）获取特定内容：获取所有 id 为 "example" 的元素内容 print(soup.select('#example'))获取所有 class 为 "example" 的元素内容 print(soup.select('.example'))使用层级选择器（如 .next_sibling、.next_element、.previous_sibling、.previous_element）进行更复杂的提取...

BeautifulSoup 的正确使用方法是什么?

以下是 BeautifulSoup 的正确使用方法：1. 导入模块：from bs4 import beautifulsoup2. 选择解析器解析指定内容：soup = beautifulsoup(解析内容，解析器)。常用解析器有：html.parser、lxml、xml、html5lib。有时候需要安装解析器，比如 pip3 install lxml。

如何提取正文内容 BeautifulSoup的输出

import BeautifulSoupsoup = BeautifulSoup.BeautifulSoup(html)利用这个包先把html里script，style给清理了：[script.extract() for script in soup.findAll('script')][style.extract() for style in soup.findAll('style')]清理完成后，这个包有一个prettify()函数，把代码格式给搞的标准一些：soup.p...

beautifulsoup什么意思

BeautifulSoup是一个用于解析HTML和XML文档的Python库。它主要用于网页数据抓取和网页爬虫开发。通过使用BeautifulSoup，开发者可以方便地提取和操作网页中的HTML元素，从而获取所需的数据。关于BeautifulSoup的详细解释 1. 基本定义：BeautifulSoup是一个Python库，主要用于网页数据的抓取和处理。在处理网络爬虫或网页...

如何使用爬虫获取网页数据 python

以下是使用Python编写爬虫获取网页数据的一般步骤：1. 安装Python和所需的第三方库。可以使用pip命令来安装第三方库，如pip install beautifulsoup4。2. 导入所需的库。例如，使用import语句导入BeautifulSoup库。3. 发送HTTP请求获取网页内容。可以使用Python的requests库发送HTTP请求，并获取网页的HTML内容。4...

BeautifulSoup库常用函数及基础用法

首先，创建BeautifulSoup对象是基础操作，通过BeautifulSoup(markup, features)，你可以将HTML或XML文档转换为Python对象。例如，你可以用它来处理文档中的标签，如使用tagname遍历和搜索，或者通过find_all(tagname)获取所有匹配的标签。字符串内容和注释也可以通过相应类（NavigableString和Comment）进行操作，如查找...

如何用python爬取网站数据

1.首先要明确想要爬取的目标。对于网页源信息的爬取首先要获取url,然后定位的目标内容。2.先使用基础for循环生成的url信息。3.然后需要模拟浏览器的请求(使用request.get(url)),获取目标网页的源代码信息(req.text)。4.目标信息就在源代码中,为了简单的获取目标信息需要用Beautifulsoup库对源代码进行解析...

python beautifulsoup获取属性值。

a = BeautifulSoup("上面的字符串")print dict(a.contents[0].attrs)['src']

BeautifulSoup详细使用教程!你学会了吗?

BeautifulSoup，Python中用于解析HTML和XML的工具，它能将复杂结构解析成易于操作的树形结构。通过指定class或id，你可以迅速获取相关数据，操作简便。最新版本为4.4.0，3版本已停更。支持Python2.7和Python3.0，这里以Python2.7为例。在Mac上，可通过`sudo easy_install beautifulsoup4`安装，确认安装...

如何爬取网页数据

1. 使用Python爬虫库 Python是一种高级编程语言，以其简洁易学、开发效率高而受欢迎。在网页数据爬取中，Python爬虫库BeautifulSoup和Scrapy最为常用。BeautifulSoup能够方便地从网页中提取数据，而Scrapy则是一个完整的爬虫框架，支持自动化爬取、数据存储和处理。2. 使用网页抓取工具网页抓取工具能自动化爬...

beautifulsoup的作用 beautifulsoup干嘛的 beautifulsoup4用法 beautifulsoup用法 beautifulsoup简介 beautifulsoup翻译 beautifulsoup解析慢 beautifulsoup函数 pythonsoup

python 用 beautifulsoup 获得 的东西

python 用 beautifulsoup 获得的东西