搜索引擎技术,是信息检索技术的一种实际应用,在互联网海量数据中,为用户提供进行信息检索服务。
Gerard Salton给出的信息检索的定义为:
信息检索是关于信息的结构、分析、组织、存储、搜索和检索的领域。
搜索引擎技术,就是信息检索应用在web上的技术。
马慧SEO仅列出一些尤为简单的基础内容,方便大家理解,不做深入分析:
① 文本采集
搜索引擎爬虫组件:用来发现和抓取信息源,将抓取的信息源中的文档转换为文本或某种数据形式,然后存储到搜索引擎数据库中。
② 文本转换
解析器组件:用来处理文本转换,比如分词、停止词去除、词干提取、超链接提取等。
③ 索引的创建
搜索引擎需要先统计文档,对文档进行加权,倒排,索引分派等。
④ 用户交互
用户在搜索引擎窗口中只需要输入查询词,然后就可以一键显示结果。但搜索引擎需要接受这些查询词,进行分词处理、词干提取、去停用词等查询转换操作,筛选出与查询词相关的结果。
⑤ 排序
通过一定的排序算法,将已经得到的相关结果进行索引排序。
⑥ 评价
通过大量日志为参考数据,对页面排名进行调整,从而改善搜索引擎系统带给用户的搜索体验。
小小课堂SEO自学网也从六个方面来分别说平时的SEO优化手段:
① 优待爬虫
让搜索引擎爬虫更容易爬行和抓取我们的页面内容,保证一定的原创度。这样爬虫才能更喜欢我们的网站。
② 懂得页面优化
明白伪原创并非通过简单颠倒顺序就可以骗过搜索引擎的,更应该清楚,你把文章中的“呢”换成了“吗”,对搜索引擎来讲,几乎没区别。
关注内链优化,注重文章排名可利用锚文本链接适当指向其他文章页面,注重栏目排名可同样做指向,但最好不要将所有文章中的某一关键词均指向首页。
关注导出链接,千万不要将指向某些违规网站,适当指向优质网站还是有益处的,不要总想着权重的流失。
③ 懂得如何才能加权
页面自身的加权一般是由【TF-IDF】来完成的,关注这部分的加权。
TF-IDF:保证关键词频率和密度,尽量寻找在搜索引擎整个数据库中出现的页面数量较少的关键词,也就是相关搜索结果数低。
④ 重视相关搜索和下拉词
核心关键词的相关搜索词和下拉词是用户更加精准的搜索词,一般来讲,这种词的优化难度比核心关键词简单,而且点展比也高。
⑤ 内链和外链优化
网站内部通过内链优化可以控制权重的流动,集中到某些页面上,外链当然也是给予我们网站的一个投票。
不管是内链还是外链,最好都采用锚文本链接,纯文本链接效果会差很多。
⑥ 重视用户体验
起一个好的标题和页面描述,增加点击,真正给予用户想看到的东西,同时考虑如何让用户多看几个页面。
新闻热点
疑难解答