首页 > 编程 > Python > 正文

Python使用urllib2模块抓取HTML页面资源的实例分享

2020-01-04 17:30:02
字体:
来源:转载
供稿:网友
这篇文章主要介绍了Python使用urllib2模块抓取HTML页面资源的实例分享,将要抓取的页面地址写在单独的规则列表中方便组织和重复使用,需要的朋友可以参考下
 

先把要抓取的网络地址列在单独的list文件中

http://www.vevb.com/article/83440.htmlhttp://www.vevb.com/article/83437.htmlhttp://www.vevb.com/article/83430.htmlhttp://www.vevb.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/pythonimport osimport sysimport urllib2import redef Cdown_data(fileurl, fpath, dpath):  if not os.path.exists(dpath):    os.makedirs(dpath)  try:    getfile = urllib2.urlopen(fileurl)     data = getfile.read()   f = open(fpath, 'w')   f.write(data)   f.close()  except: print with open('u1.list') as lines:  for line in lines:    URI = line.strip()    if '?' and '%' in URI:      continue elif URI.count('/') == 2:      continue    elif URI.count('/') > 2:      #print URI,URI.count('/')   try:        dirpath = URI.rpartition('/')[0].split('//')[1]        #filepath = URI.split('//')[1].split('/')[1]        filepath = URI.split('//')[1]     if filepath:          print URI,filepath,dirpath          Cdown_data(URI, filepath, dirpath)      except:        print URI,'error'

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表