详细介绍常用的几类搜索引擎技术

2020-04-22 10:58:29

字体：大中小

来源：转载

供稿：网友

因特网的迅猛发展、WEB信息的增加，用户要在信息海洋里查找信息，就像大海捞针一样，搜索引擎（计算机爱好者，学习计算机基础，电脑入门，请到本站http://www.VeVb.com，我站同时提供计算机基础知识教程，计算机基础知识试题供大家学习和使用），技术恰好解决了这一难题，它可以为用户提供信息检索服务。目前，搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。

搜索引擎（Search Engine）是随着WEB信息的迅速增加，从1995年开始逐渐发展起来的技术。

据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计，全球目前的网页超过8亿，有效数据超过9TB，并且仍以每4个月翻一番的速度增长。例如，Google目前拥有10亿个网址，30亿个网页，3.9 亿张图像，Google支持66种语言接口，16种文件格式，面对如此海量的数据和如此异构的信息，用户要在里面寻找信息，必然会“大海捞针”无功而返。

搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。

目前，搜索引擎技术按信息标引的方式可以分为目录式搜索引擎、机器人搜索引擎和混合式搜索引擎；按查询方式可分为浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索引擎；按语种又分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。

目录式搜索引擎

目录式搜索引擎（Directory Search Engine）是最早出现的基于ＷＷＷ的搜索引擎，以雅虎为代表，我国的搜狐也属于目录式搜索引擎。

目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类，每个大类再分为若干个小类，依次细分，形成了一个可浏览式等级主题索引式搜索引擎，一般的搜索引擎分类体系有五六层，有的甚至十几层。

目录式搜索引擎主要通过人工发现信息，依靠编目员的知识进行甄别和分类。由于目录式搜索引擎的信息分类和信息搜集有人的参与，因此其搜索的准确度是相当高的，但由于人工信息搜集速度较慢，不能及时地对网上信息进行实际监控，其查全率并不是很好，是一种网站级搜索引擎。

机器人搜索引擎

机器人搜索引擎通常有三大模块：信息采集、信息处理、信息查询。信息采集一般指爬行器或网络蜘蛛，是通过一个URL列表进行网页的自动分析与采集。起初的URL并不多，随着信息采集量的增加，也就是分析到网页有新的链接，就会把新的URL添加到URL列表，以便采集。

机器人搜索引擎使用多线程并发搜索技术，主要完成文档访问代理、路径选择引擎和访问控制引擎。基于机器人搜索引擎的Web页搜索模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成，另外还要借助标引器的一个辅助功能。

详细介绍常用的几类搜索引擎技术来自：http://www.VeVb.com/

上一篇：网络命令一览表

下一篇：RSS名称丰富含义的由来