首页 > 学院 > 开发设计 > 正文

简单爬虫

2019-11-10 18:20:46
字体:
来源:转载
供稿:网友

URL管理器

实现方式:

基于内存set()基于数据库(包含关系型如:OracleMySQL等,还有非关系型如:redis、pg等)

包含属性:

保存“爬”过的url保存未“爬”过的url

包含方法:

add增加一个urlget获取一个url

网页下载器

实现方式:

urllib2response = urllib2.urlopen(url)if response.getcode()!=200 returnreturn response.read()request

网页解析器

实现方式:

beautiful soupsoup = BeautifulSoup(html_doc,'html_parser',from_encoding='utf-8')#获取所有文字内容:soup.get_text()#获取标签:soup.find(id="link3")soup.find_all('a',href=re.complie(''))
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表