python通过链接抓取网站详解

2020-02-15 21:29:53

字体：大中小

来源：转载

供稿：网友

在本篇文章里，你将会学习把这些基本方法融合到一个更灵活的网站爬虫中，该爬虫可以跟踪任意遵循特定 URL 模式的链接。

这种爬虫非常适用于从一个网站抓取所有数据的项目，而不适用于从特定搜索结果或页面列表抓取数据的项目。它还非常适用于网站页面组织得很糟糕或者非常分散的情况。

这些类型的爬虫并不需要像上一节通过搜索页面进行抓取中采用的定位链接的结构化方法，因此在 Website 对象中不需要包含描述搜索页面的属性。但是由于爬虫并不知道待寻找的链接的位置，所以你需要一些规则来告诉它选择哪种页面。你可以用 targetPattern(目标 URL 的正则表达式）和布尔变量 absoluteUrl 来达成这一目标：

class Website:  def __init__(self, name, url, targetPattern, absoluteUrl,    titleTag, bodyTag):    self.name = name    self.url = url    self.targetPattern = targetPattern    self.absoluteUrl=absoluteUrl    self.titleTag = titleTag    self.bodyTag = bodyTagclass Content:  def __init__(self, url, title, body):    self.url = url    self.title = title    self.body = bodydef print(self):    print("URL: {}".format(self.url))    print("TITLE: {}".format(self.title))    print("BODY:/n{}".format(self.body))

Content 类和第一个爬虫例子中使用的是一样的。

Crawler 类从每个网站的主页开始，定位内链，并解析在每个内链页面发现的内容：

import reclass Crawler:  def __init__(self, site):    self.site = site    self.visited = []def getPage(self, url):    try:req = requests.get(url)    except requests.exceptions.RequestException:      return Nonereturn BeautifulSoup(req.text, 'html.parser')def safeGet(self, pageObj, selector):selectedElems = pageObj.select(selector)if selectedElems is not None and len(selectedElems) > 0:return '/n'.join([elem.get_text() forelem in selectedElems])return ''def parse(self, url):bs = self.getPage(url)if bs is not None:title = self.safeGet(bs, self.site.titleTag)body = self.safeGet(bs, self.site.bodyTag)if title != '' and body != '':content = Content(url, title, body)content.print()def crawl(self):"""获取网站主页的页面链接"""bs = self.getPage(self.site.url)targetPages = bs.findAll('a',href=re.compile(self.site.targetPattern))for targetPage in targetPages:targetPage = targetPage.attrs['href']if targetPage not in self.visited:self.visited.append(targetPage)if not self.site.absoluteUrl:targetPage = '{}{}'.format(self.site.url, targetPage)self.parse(targetPage)reuters = Website('Reuters', 'https://www.reuters.com', '^(/article/)', False,'h1', 'div.StandardArticleBody_body_1gnLA') crawler = Crawler(reuters) crawler.crawl()

与前面的例子相比，这里的另外一个变化是：Website 对象（在这个例子中是变量 reuters）是 Crawler 对象本身的一个属性。这样做的作用是将已访问过的页面存储在爬虫中，但是也意味着必须针对每个网站实例化一个新的爬虫，而不是重用一个爬虫去抓取网站列表。

上一篇：python爬虫之遍历单个域名

下一篇：Python脚本操作Excel实现批量替换功能