本篇为基础爬虫的模板,使用urllib库。 代码功能:爬取百度贴吧的图片。 代码如下:
import reimport urllibdef getHtml(url): page=urllib.urlopen(url) html=page.read() return htmldef getImg(html): reg=r'src="(.+?/.jpg)" size=' imgre=re.compile(reg) imglist=re.findall(imgre,html) x=0 for imgurl in imglist: urllib.urlretrieve(imgurl,'%s.jpg'%x) #urllib.urlretrieve()方法,直接将远程数据下载到本地。 x+=1name='http://tieba.baidu.com/p/4859088308'html=getHtml(name)getImg(html)PRint 'DONE!'1、re是正则库,详细可看 http://www.VEVb.com/fnng/archive/2013/05/20/3089816.html
新闻热点
疑难解答