如何用Python爬租房网站信息
发布网友
发布时间:2022-04-24 07:13
我来回答
共3个回答
热心网友
时间:2022-05-11 02:29
首先你需要了解如何用python进行爬虫,然后需要了解正则或者找寻条件的方法,给你举个例子:
#coding:utf-8
import requests
from bs4 import BeautifulSoup
import re
DownPath = "D:/meinvtupian/"
import urllib
head = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
TimeOut = 5
PhotoName = 124
c = '.jpeg'
PWD="D:/meinvtupian/"
site = "http://www.mm131.com/xiaohua/"
Page = requests.session().get(site,headers=head,timeout=TimeOut)
Coding = (Page.encoding)
Content = Page.content.decode(Coding).encode('utf-8')
ContentSoup = BeautifulSoup(Content)
jpg = ContentSoup.findAll('img')
for photo in jpg:
PhotoAdd = photo.get('src')
PhotoName +=1
Name = (str(PhotoName)+c)
r = requests.get(PhotoAdd,stream=True)
with open(PWD+Name, 'wb') as fd:
for chunk in r.iter_content():
fd.write(chunk)
print ("你已经下载了 %d 图片" %PhotoName)
热心网友
时间:2022-05-11 03:47
总的来讲这么几步:
1、根据对方数据输出方式选择爬网页还是爬Restful接口。
2、采用一般的HTTP库或者Requests库访问对方接口取得数据。
3、根据取得的数据格式,解析或过滤出你要的数据,存入文件或者数据库中。