首页 > 编程 > Python > 正文

以Python的Pyspider为例剖析搜索引擎的网络爬虫实现方法

2020-02-23 00:28:10

字体：大中小

来源：转载

供稿：网友

在这篇文章中，我们将分析一个网络爬虫。

网络爬虫是一个扫描网络内容并记录其有用信息的工具。它能打开一大堆网页，分析每个页面的内容以便寻找所有感兴趣的数据，并将这些数据存储在一个数据库中，然后对其他网页进行同样的操作。

如果爬虫正在分析的网页中有一些链接，那么爬虫将会根据这些链接分析更多的页面。

搜索引擎就是基于这样的原理实现的。

这篇文章中，我特别选了一个稳定的、”年轻”的开源项目pyspider，它是由 binux 编码实现的。

注：据认为pyspider持续监控网络，它假定网页在一段时间后会发生变化，因此一段时间后它将会重新访问相同的网页。

概述

爬虫pyspider主要由四个组件组成。包括调度程序（scheduler），抓取程序（fetcher），内容处理程序（processor）以及一个监控组件。

调度程序接受任务并决定该做什么。这里有几种可能性，它可以丢弃一个任务（可能这个特定的网页刚刚被抓取过了），或者给任务分配不同的优先级。

当各个任务的优先级确定之后，它们被传入抓取程序。它重新抓取网页。这个过程很复杂，但逻辑上比较简单。

当网络上的资源被抓取下来，内容处理程序就负责抽取有用的信息。它运行一个用户编写的Python脚本，这个脚本并不像沙盒一样被隔离。它的职责还包括捕获异常或日志，并适当地管理它们。

最后，爬虫pyspider中有一个监控组件。

爬虫pyspider提供一个异常强大的网页界面（web ui），它允许你编辑和调试你的脚本，管理整个抓取过程，监控正在进行的任务，并最终输出结果。

项目和任务

在pyspider中，我们有项目和任务的概念。

一个任务指的是一个需要从网站检索并进行分析的单独页面。

一个项目指的是一个更大的实体，它包括爬虫涉及到的所有页面，分析网页所需要的python脚本，以及用于存储数据的数据库等等。

在pyspider中我们可以同时运行多个项目。

代码结构分析

根目录

在根目录中可以找到的文件夹有：

data，空文件夹，它是存放由爬虫所生成的数据的地方。 docs，包含该项目文档，里边有一些markdown代码。 pyspider，包含项目实际的代码。 test，包含相当多的测试代码。这里我将重点介绍一些重要的文件： .travis.yml，一个很棒的、连续性测试的整合。你如何确定你的项目确实有效？毕竟仅在你自己的带有固定版本的库的机器上进行测试是不够的。 Dockerfile，同样很棒的工具！如果我想在我的机器上尝试一个项目，我只需要运行Docker，我不需要手动安装任何东西，这是一个使开发者参与到你的项目中的很好的方式。 LICENSE，对于任何开源项目都是必需的，（如果你自己有开源项目的话）不要忘记自己项目中的该文件。 requirements.txt，在Python世界中，该文件用于指明为了运行该软件，需要在你的系统中安装什么Python包，在任何的Python项目中该文件都是必须的。 run.py，该软件的主入口点。 setup.py，该文件是一个Python脚本，用于在你的系统中安装pyspider项目。

上一篇：深入理解Javascript中的this关键字

下一篇：Python进行数据科学工作的简单入门教程

学习交流

笔记本开机提示error loading os错误的问

笔记本开机提示error loading os错误的问题怎么解决...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

雷军：小米成立10年收入突破2000亿

2020-02-23 14:27:16

特斯拉：无钴，不代表一定是磷酸铁锂电池

2020-02-22 09:45:28

豌豆荚宣布业务调整将于2月28日关闭PC版在线服务

2020-02-22 09:42:20

小米集团宣布人事任命：联合创始人王川担任小米集团首席战略官

2020-02-22 09:39:07

外媒：高通康宁合作开发毫米波5G室内解决方案

2020-02-21 16:46:56

华为终端产品与战略线上发布会：5G全场景，共联未来

2020-02-20 10:01:00

疑难解答

图片精选

网友关注