首页 > 学院 > 开发设计 > 正文

【爬虫一】urllib库使用

2019-11-14 11:32:04
字体:
来源:转载
供稿:网友


本篇为基础爬虫的模板,使用urllib库。 代码功能:爬取百度贴吧的图片。 代码如下:

import reimport urllibdef getHtml(url): page=urllib.urlopen(url) html=page.read() return htmldef getImg(html): reg=r'src="(.+?/.jpg)" size=' imgre=re.compile(reg) imglist=re.findall(imgre,html) x=0 for imgurl in imglist: urllib.urlretrieve(imgurl,'%s.jpg'%x) #urllib.urlretrieve()方法,直接将远程数据下载到本地。 x+=1name='http://tieba.baidu.com/p/4859088308'html=getHtml(name)getImg(html)PRint 'DONE!'

注释:

1、re是正则库,详细可看 http://www.VEVb.com/fnng/archive/2013/05/20/3089816.html




发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表