python爬虫之遍历单个域名

2020-02-15 21:29:47

字体：大中小

来源：转载

供稿：网友

即使你没听说过“维基百科六度分隔理论”，也很可能听过“凯文 • 贝肯（Kevin Bacon）的六度分隔值游戏”。在这两个游戏中，目标都是把两个不相干的主题（在前一种情况中是相互链接的维基百科词条，而在后一种情况中是出现在同一部电影中的演员）用一个链条（至多包含 6 个主题，包括原来的两个主题）连接起来。

比如，埃里克 • 艾德尔和布兰登 • 弗雷泽都出现在电影《骑警杜德雷》里，布兰登 • 弗雷泽又和凯文 • 贝肯都出现在电影《我呼吸的空气》里。因此，根据这两个条件，从埃里克 • 艾德尔到凯文 • 贝肯的链条长度只有 3 个主题。

感谢 The Oracle of Bacon 的存在，满足了我对这类关系链的好奇心。

我们将在本节创建一个项目来实现“维基百科六度分隔理论”的查找方法。也就是说，我们要实现从埃里克 • 艾德尔的词条页面（https://en.wikipedia.org/wiki/Eric_Idle）开始，经过最少的链接点击次数找到凯文 • 贝肯的词条页面（https://en.wikipedia.org/wiki/Kevin_Bacon）。

这么做对维基百科的服务器负载有多大影响？

根据维基媒体基金会（维基百科所属的组织）的统计，该网站每秒会收到大约2500次点击，其中超过 99% 的点击都指向维基百科域名［详情请见“维基媒体统计图”（Wikimedia in Figures）里的“流量数据”（Traffic Volume）部分内容］。因为网站流量很大，所以你的网络爬虫不可能对维基百科的服务器负载产生显著影响。不过，如果你频繁地运行本书的代码示例，或者自己创建项目来抓取维基百科的词条，那么希望你能够向维基媒体基金会提供一点捐赠—— 不只是为了抵消你占用的服务器资源，也是为了其他人能够利用维基百科这个教育资源。

还需要注意的是，如果你准备利用维基百科的数据做一个大型项目，应该确认该数据是不能够通过维基百科 API 获取的。维基百科网站经常被用于演示爬虫，因为它的 HTML 结构简单并且相对稳定。但是它的 API 往往会使得数据获取更加高效。你应该已经知道如何写一段 Python 代码，来获取维基百科网站的任何页面并提取该页面中的链接了。

from urllib.request import urlopen from bs4 import BeautifulSouphtml = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon') bs = BeautifulSoup(html, 'html.parser') for link in bs.find_all('a'):  if 'href' in link.attrs:    print(link.attrs['href'])

如果你观察生成的一列链接，会看到你想要的所有词条链接都在里面：“Apollo 13”“Philadelphia”“Primetime Emmy Award”，等等。但是，也有一些你不需要的链接：