首页 > 学院 > 开发设计 > 正文

第一天定向爬虫学习笔记

2019-11-08 18:51:51
字体:
来源:转载
供稿:网友

      python3的爬虫库与python2库的区别较大,python3将urllib2和urllib直接合并成了一个库——urllib,在其下面有四个模块,分别为request,parse,error,robotparser模块,在request之下的urlopen方法,方法原型如下:urlopen(url,data=none),这个方法返回的是一个response对象,其中参数url可以使一个request对象,也可以是一个字符串,该方法等价于:

res=urlib.request.Request(url)

response=urlli.request.urlopen(res)

再回过头来说一下urlopen里面的data参数,首先需要构造一个字典,然后再用urllib.urlencode()进行转化为相应的格式。

由于我的机器装的是python2.7版本,所以需要将这个代码进行转化,所以,我在网上查阅了一下相应的对应代码:

Python 2 name

 Python 3 name
urllib.urlretrieve()urllib.request.urlretrieve()
urllib.urlcleanup()urllib.request.urlcleanup()
urllib.quote()urllib.parse.quote() 
urllib.quote_plus()urllib.parse.quote_plus()
urllib.unquote()urllib.parse.unquote()
urllib.unquote_plus()urllib.parse.unquote_plus()
urllib.urlencode()urllib.parse.urlencode()
urllib.pathname2url()urllib.request.pathname2url()
urllib.url2pathname()urllib.request.url2pathname()
urllib.getPRoxies()urllib.request.getproxies()
urllib.URLopenerurllib.request.URLopener 
urllib.FancyURLopenerurllib.request.FancyURLopener
urllib.ContentTooShortErrorurllib.error.ContentTooShortError
urllib2.urlopen()urllib.request.urlopen()
urllib2.install_opener()urllib.request.install_opener()
urllib2.build_opener()urllib.request.build_opener()
urllib2.URLErrorurllib.error.URLError
urllib2.HTTPErrorurllib.error.HTTPError
urllib2.Requesturllib.request.Request
urllib2.OpenerDirectorurllib.request.OpenerDirector
urllib2.BaseHandlerurllib.request.BaseHandler
urllib2.HTTPDefaultErrorHandlerurllib.request.HTTPDefaultErrorHandler
urllib2.HTTPRedirectHandlerurllib.request.HTTPRedirectHandler
urllib2.HTTPCookieProcessorurllib.request.HTTPCookieProcessor
urllib2.ProxyHandlerurllib.request.ProxyHandler
urllib2.HTTPPassWordMgrurllib.request.HTTPPasswordMgr
urllib2.HTTPPasswordMgrWithDefaultRealmurllib.request.HTTPPasswordMgrWithDefaultRealm
urllib2.AbstractBasicAuthHandlerurllib.request.AbstractBasicAuthHandler
urllib2.HTTPBasicAuthHandlerurllib.request.HTTPBasicAuthHandler
urllib2.ProxyBasicAuthHandlerurllib.request.ProxyBasicAuthHandler
urllib2.AbstractDigestAuthHandlerurllib.request.AbstractDigestAuthHandler
urllib2.HTTPDigestAuthHandlerurllib.request.HTTPDigestAuthHandler
urllib2.ProxyDigestAuthHandlerurllib.request.ProxyDigestAuthHandler
urllib2.HTTPHandlerurllib.request.HTTPHandler
urllib2.HTTPSHandlerurllib.request.HTTPSHandler
urllib2.FileHandlerurllib.request.FileHandler
urllib2.FTPHandlerurllib.request.FTPHandler
urllib2.CacheFTPHandlerurllib.request.CacheFTPHandler 
urllib2.UnknownHandlerurllib.request.UnknownHandler


上一篇:vector的使用

下一篇:Groovy正则表达式

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表