实现方式:
基于内存set()基于数据库(包含关系型如:Oracle、MySQL等,还有非关系型如:redis、pg等)包含属性:
保存“爬”过的url保存未“爬”过的url包含方法:
add增加一个urlget获取一个url实现方式:
urllib2response = urllib2.urlopen(url)if response.getcode()!=200 returnreturn response.read()request实现方式:
beautiful soupsoup = BeautifulSoup(html_doc,'html_parser',from_encoding='utf-8')#获取所有文字内容:soup.get_text()#获取标签:soup.find(id="link3")soup.find_all('a',href=re.complie(''))新闻热点
疑难解答