搜索引擎的工作原理,看起来好像很技术,不容易理解。其实这个搜索引擎的工作原理与超市开张有些相似。
如果你要看一家超市,而且现在地点,内部装修都已经好了,但是还没有货物,如果要开张你还需要做什么呢?一切都准备就绪,就差货物了,那第一步肯定是去采购,到各个地方去采购物品,如食品、生活用品、文具等等,只要是超市中要售出的产品都采购回来;第二步当然是理货了,货物已经采购回来了就需要将物品进行分类整理,放到相应的货架上;第三步就可以售货了,你要购买东西时只需要根据物品的特征去进行检索就可以了。
一共就三步,很简单吧,搜索引擎的工作原理就和超市售货十分相似,我们按照超市售货的步骤一起来看看。
“采购”―抓取网页
搜索引擎从它的服务器中出发进行抓取,抓取到一个链接之后就打开这个链接页面,从页面中爬行抓取到其它的链接,抓到之后将这个链接保存到搜索引擎的临时库中,然后继续去进行抓取,打开链接页面,然后将新抓取到的链接保存到临时库中,这样一直循环往复。
“理货”―数据分析
蜘蛛已经将网页下载到临时库中,数据分析系统就对它进行分析,分析之后不符合要求的就将它清除掉,符合要求的则放到搜索引擎的主索引区中。数据分析部分会进行网页结构化、消噪、查重、分词和链接分析等。
符合要求的放到主索引区之后搜索引擎会根据一定的算法对其进行排序、归类、整理,将所有的URL加上编号。
“售货”―结果显示
用户在搜索引擎前台搜索一些关键词的时候就能够展示给我们主索引区中的排序内容。
以上讲解内容都比较理论化,最后附上一张图帮助大家理解。
新闻热点
疑难解答