首页 > 数据库 > Redis > 正文

爬虫技术之分布式爬虫架构的讲解

2020-10-28 21:31:16

字体：大中小

来源：转载

供稿：网友

分布式爬虫架构并不是一开始就出现的。而是一个逐步演化的过程。

最开始入手写爬虫的时候，我们一般在个人计算机上完成爬虫的入门和开发，而在真实的生产环境，就不能用个人计算机来运行爬虫程序了，而是将爬虫程序部署在服务器上。利用服务器不关机的特性，爬虫可以不间断的24小时运行。单机爬虫的结构如下图。

然而，由于爬虫在爬取数据时，爬取频次并不能太快，即使是爬虫在服务器上不间断运行，效率可能也无法满足实际需求。这时候，就需要在多机上部署爬虫程序，用分布式爬虫架构，进行数据爬取。分布式爬虫的架构一般如下所示。

采用分布式爬虫架构后，带来了如下几个好处。

1，爬虫效率提高。这一点显而易见，之前是单机运行，现在是多机分布式运行，效率显著提高。
2，爬虫可靠性可用性提高。之前部署在一台服务器上，当服务器出现故障或爬虫程序出现故障时，爬虫便不可用了。采用分布式爬虫架构后，爬虫任务生产者，任务队列，爬虫任务消费者都采用分布式架构部署，其中的某些机器出现故障，不影响整体的可用性，系统可靠性大大增强。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对武林网的支持。如果你想了解更多相关内容请查看下面相关链接

上一篇：redis锁机制介绍与实例

下一篇：关于redigo中PubSub的一点小坑分析

学习交流

硬盘分区之整数G计算公式附在线计算工具

硬盘分区之整数G计算公式附在线计算工具原创...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

腾讯股价创历史新高马化腾超越马云重回中国首富

2020-10-27 13:52:18

陌陌宣布由总裁兼COO王力担任公司新任CEO

2020-10-24 17:53:42

猿辅导宣布完成22亿美元融资投后估值155亿美元

2020-10-22 13:18:25

要强化科技投入！京东物流CEO王振辉：我们永远是乙方

2020-10-22 13:16:47

传快手最快于11月份香港上市腾讯成最大赢家

2020-10-22 13:14:41

天猫双11开局：1小时超300个品牌成交超去年全天

2020-10-21 18:23:20

疑难解答

图片精选

网友关注