百度、谷歌搜索引擎原理及新网站应对

2024-04-26 13:22:13

字体：大中小

来源：转载

供稿：网友

第一节搜索引擎原理

1、基本概念
来源于中文wiki百科的解释：（网络）搜索引擎指自动从互联网搜集信息，经过一定整理以后，提供给用户进行查询的系统。
来源于英文wiki百科的解释：web search engines provide an interface to search for information on the world wide web. information may consist of web pages, images and other types of files.（网络搜索引擎为用户提供接口查找互联网上的信息内容，这些信息内容包括网页、图片以及其他类型的文档）
2、分类
按照工作原理的不同，可以把它们分为两个基本类别：全文搜索引擎（fulltext search engine）和分类目录directory）。
分类目录则是通过人工的方式收集整理网站资料形成数据库的，比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外，在网上的一些导航站点，也可以归属为原始的分类目录，比如“网址之家”（http://www.hao123.com/）。
全文搜索引擎通过自动的方式分析网页的超链接，依靠超链接和html代码分析获取网页信息内容，并按事先设计好的规则分析整理形成索引，供用户查询。
两者的区分可用一句话概括：分类目录是人工方式建立网站的索引，全文搜索是自动方式建立网页的索引。（有些人经常把搜索引擎和数据库检索相比较，其实是错误的）。
3、全文搜索的工作原理
全文搜索引擎一般信息采集、索引、搜索三个部分组成，详细的可由搜索器、分析器、索引器、检索器和用户接口等5个部分组成
（1）信息采集（web crawling）：信息采集的工作由搜索器和分析器共同完成，搜索引擎利用称为网络爬虫（crawlers）、网络蜘蛛（spider）或者叫做网络机器人（robots）的自动搜索机器人程序来查询网页上的超链接。
进一步解释一下："机器人"实际上是一些基于web的程序，通过请求web站点上的html网页来对采集该html网页，它遍历指定范围内的整个web空间，不断从一个网页转到另一个网页，从一个站点移动到另一个站点，将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页，都要搜索它内部的所有链接，所以从理论上讲，如果为"机器人"建立一个适当的初始网页集，从这个初始网页集出发，遍历所有的链接，"机器人"将能够采集到整个web空间的网页。
网上后很多开源的爬虫程序，可以到一些开源社区中查找。
关键点1：核心在于html分析，因此严谨的、结构化的、可读性强、错误少的html代码，更容易被采集机器人所分析和采集。例如，某个页面存在<body这样的标签或者没有</body></html>这样的结尾，在网页显示是没有问题的，但是很有可能会被采集拒绝收录，在例如类似../../***.htm这样的超链接，也有可能造成蜘蛛无法识别。这也是需要推广web标准的原因之一，按照web标准制作的网页更容易被搜索引擎检索和收录。
关键点2：搜索机器人有专门的搜索链接库，在搜索相同超链接时，会自动比对新旧网页的内容和大小，如果一致，则不采集。因此有人担心修改后的网页是否能被收录，这是多余的。
（2）索引（indexing）：搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息，还要将它们按照一定的规则进行编排。索引可以采用通用的大型数据库，如oracle、sybase等，也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分，涉及到网页结构分析、分词、排序等技术，好的索引能极大的提高检索速度。
关键点1：虽然现在的搜索引擎都支持增量的索引，但是索引创建依然需要较长的时间，搜索引擎都会定期更新索引，因此即便爬虫来过，到我们能在页面上搜索到，会有一定的时间间隔。
关键点2：索引是区别好坏搜索的重要标志。
（3）检索（searching）：用户向搜索引擎发出查询，搜索引擎接受查询并向用户返回资料。有的系统在返回结果之前对网页的相关度进行了计算和评估，并根据相关度进行排序，将相关度大的放在前面，相关度小的放在后面；也有的系统在用户查询之前已经计算了各个网页的网页等级（page rank 后文会介绍），返回查询结果时将网页等级大的放在前面，网页等级小的放在后面。
关键点1：不同搜索引擎有不同的排序规则，因此在不同的搜索引擎中搜索相同关键词，排序是不同的。

第二节百度搜索引擎工作方式

我所知道的百度搜索：由于工作的关系，小生有幸一直在使用百度的百事通企业搜索引擎（该部门现已被裁员，主要是百度的战略开始向谷歌靠拢，不再单独销售搜索引擎，转向搜索服务），据百度的销售人员称，百事通的搜索核心和大搜索的相同，只有可能版本稍低，因此我有理由相信搜索的工作方式大同小异。下面是一些简单介绍和注意点：
1、关于网站搜索的更新频率
百度搜索可以设定网站的更新频率和时间，一般对于大网站更新频度很快，而且会专门开设独立的爬虫进行跟踪，不过百度是比较勤奋的，中小网站一般也会每天更新。因此，如果你希望自己的网站更新得更快，最好是在大型的分类目录（例如yahoo sina 网易）中有你的链接，或者在百度自己的相关网站中，有你网站的超链接，在或者你的网站就在一些大型网站里面，例如大型网站的blog。
2、关于采集的深度
百度搜索可以定义采集的深度，就是说不见得百度会检索你网站的全部内容，有可能只索引你的网站的首页的内容，尤其对小型网站来说。
3、关于对时常不通网站的采集
百度对于网站的通断是有专门的判断的，如果一旦发现某个网站不通，尤其是一些中小网站，百度的自动停止往这些网站派出爬虫，所以选择好的服务器，保持网站24小时畅通非常重要。
4、关于更换ip的网站
百度搜索能够基于域名或者ip地址，如果是域名，会自动解析为对应的ip地址，因此就会出现2个问题，第一就是如果你的网站和别人使用相同的ip地址，如果别人的网站被百度惩罚了，你的网站会受到牵连，第二就是如果你更换了ip地址，百度会发现你的域名和先前的ip地址没有对应，也会拒绝往你的网站派出爬虫。因此建议，不要随意更换ip地址，如果有可能尽量独享ip，保持网站的稳定很重要。
5、关于静态和动态网站的采集
很多人担心是不是类似asp?id=之类的页面很难被收集，html这样的页面容易被收集，事实上情况并没有想的这么糟，现在的搜索引擎大部分都支持动态网站的采集和检索，包括需要登陆的网站都可以检索到，因此大可不必担心自己的动态网站搜索引擎无法识别，百度搜索中对于动态的支持可以自定义。但是，如果有可能，还是尽量生成静态页面。同时，对于大部分搜索引擎，依然对脚本跳转（js）、框架（frame）、flash超链接，动态页面中含有非法字符的页面无可奈何。
6、关于索引的消失
前面讲过，搜索的索引需要创建，一般好的搜索，索引都是文本文件，而不是数据库，因此索引中需要删除一条记录，并不是一件方便的事情。例如百度，需要使用专门的工具，人工删除某条索引记录。据百度员工称，百度专门有一群人负责这件事情——接到投诉，删除记录，手工。当然还能直接删除某个规则下的所有索引，也就是可以删除某个网站下的所有索引。还有一个机制（未经验证），就是对于过期的网页和作弊的网页（主要是网页标题、关键词和内容不匹配），在重建索引的过程中也会被删除。
7、关于去重
百度搜索的去重不如谷歌的理想，主要还是判别文章的标题和来源地址，只要不相同，就不会自动去重，因此不必担心采集的内容雷同而很快被搜索惩罚，谷歌的有所不同，标题相同的被同时收录的不多。
补充一句，不要把搜索引擎想得这么智能，基本上都是按照一定的规则和公式，想不被搜索引擎惩罚，避开这些规则即可。

第三节谷歌搜索排名技术

对于搜索来说，谷歌强于百度，主要的原因就是谷歌更加公正，而百度有很多人为的因素（这也符合我国的国情），google之所以公正，源于他的排名技术page rank。
很多人知道page rank，是网站的质量等级，越小表示网站越优秀。其实page rank是依靠一个专门的公式计算出来的，当我们在google搜索关键词的时候，页面等级小的网页排序会越靠前，这个公式并没有人工干预，因此公正。
page rank的最初想法来自于论文档案的管理，我们知道每篇论文结尾都有参考文献，假如某篇文章被不同论文引用了多次，就可以认为这篇文章是篇优秀的文章。
同理，简单的说，pagerank 能够对网页的重要性做出客观的评价。pagerank 并不计算直接链接的数量，而是将从网页 a 指向网页 b 的链接解释为由网页 a 对网页 b 所投的一票。这样，pagerank 会根据网页 b 所收到的投票数量来评估该页的重要性。此外，pagerank 还会评估每个投票网页的重要性，因为某些网页的投票被认为具有较高的价值，这样，它所链接的网页就能获得较高的价值。
page rank的公式这里省略，说说影响page rank的主要因素
1、指向你的网站的超链接数量（你的网站被别人引用），这个数值越大，表示你的网站越重要，通俗的说，就是其它网站是否友情链接，或者推荐链接到你的网站；
2、超链接你的网站的重要程度，意思就是一个质量好的网站有你的网站的超链接，说明你的网站也很优秀。
3、网页特定性因素：包括网页的内容、标题及url等，也就是网页的关键词及位置。

第四节新网站如何应对搜索

以下内容是对上面分析的总结：

1、搜索引擎为什么不收录你的网站，存在以下可能（不绝对，根据各自情况不同）

（1）没有任何指向链接的孤岛网页，没有被收录的网站指向你的超链接，搜索引擎就无法发现你；

（2）网站中的网页性质及文件类型（如flash、js跳转、某些动态网页、frame等）搜索引擎无法识别；
（3）你的网站所在服务器曾被搜索引擎惩罚，而不收录相同ip的内容；
（4）近期更换过服务器的ip地址，搜索引擎需要一定时间重新采集；
（5）服务器不稳定、频繁宕机，或者经不起爬虫采集的压力；
（6）网页代码劣质，搜索无法正确分析页面内容，请至少学习一下html的基本语法，建议使用xhtml；
（7）网站用robots（robots.txt）协议拒绝搜索引擎抓取的网页；
（8）使用关键词作弊的网页，网页的关键词和内容严重不匹配，或者某些关键词密度太大；
（9）非法内容的网页；
（10）相同网站内存在大量相同标题的网页，或者网页的标题没有实际含义；
2、新站如何做才正确（仅供参考）
（1）和优秀的网站交换链接；
（2）广泛登录各种大网站的网站目录列表；
（3）多去质量好的论坛发言，发言要有质量，最好不要回复，发言中留下自己网站地址；
（4）申请大网站的博客（新浪、网易、csdn），并在博客中推广自己的网站；
（5）使用好的建站程序，最好能生成静态页面和自动生成关键词；
（6）重视每个网页的标题，以及<head>区域，尽量把符合的关键词放在这些容易被搜索索引的位置，重视文章的开头部分，尽可能在文章的开始部分使用类似摘要的功能（可以学学网易的文章样式）。
（7）按照web标准的要求，规范自己网页的html代码，让自己的网页通过w3c代码和css标准检测；
（8）不要想着作弊，做好网站内容最关键。