前言
具体上一篇SEO数据分析文章已经隔了很久了,今天有个朋友网上问我,有了词库怎么维护。正好借这个机会谈谈这个问题。 在获取到大量关键词后,首先要对这些词进行处理,在我实际工作中,总结以下几个项目我做过或者觉得有必要做的事情。
提取实体(通俗点讲就是找关键词中的重点词)
去重
受控词表
分类
提取实体
提取实体的概念就是找关键词中的重点词。比如 “北京温泉哪里好”,那这个词中的”北京 “和”温泉”这两个词是重点,”哪里好”只是一个疑问词,对主题描述帮助相对比较小。于是我们就需要通过一些技术手段,对关键词进行处理,把中间重要的关键词(实体)取出来。
先看看下面的关键词
处理前
北京博物馆大全
北京怀北滑雪场
杭州到北京动车
北京金山岭长城
北京旅行社排名
北京冬天去哪玩
西安到北京高铁
厦门到北京机票
处理后
北京|博物馆
北京|怀北|滑雪场
杭州|北京|动车
北京|金山岭|长城
北京|温泉
北京|旅行社|排名
北京|冬天|玩
西安|北京|高铁
厦门|北京|机票
可以仔细观察一下两者的不同。这边算法有很多种实现方法,鉴于从SEO的角度出发,我们对精确度和召回率的要求,一般都比较低。从0%到80%要花费的心思,可能还没从80%——100%要花费的心思多。并且不同行业的,会有略微不同的做法。于是我采取以下两个方法
1.根据词性删除停词符号(多删一些不要紧)
2.根据tf-idf过滤高频词(什么是tf-idf请自行脑补)
这边说说分词算法,很多学术派研究了一大堆中文分词算法,但实际运用起来差别很小。这边随便推荐几个,根据自己会的语言使用。
ICTCLAS http://ictclas.nlpir.org/downloads 语言:Java,C#
CRF++ http://crfpp.sourceforge.net/ ; 语言: C#
SCWS http://www.xunsearch.com/scws/ 语言: PHP
JIEBA https://pypi.python.org/pypi/jieba/ 语言ython
分词也是一门大学问,有兴趣可以看看CRF,HMM等模型的逻辑。这边就不展开讲了。
分词关键的问题是要速度快,并且可以自定义词库。由于我用的是JIEBA,这方面都能支持。
分词后根据词性,排除掉”停词”,就获取到了我们想要的结果集合。
过滤高频词。JIEBA可以对整个文本提取tf-idf值高的词。这些词是核心,肯定不可以去掉。
然后根据分词结果获取到tf值高的词,进行人工审核一下,以我们旅游行业词库为例,地名是经常出现的词,tf值可能会非常高,但是绝对不能把它去掉。所以我们需要先准备一份中国地名/景点名词库,这个可以在网上搜索下,懒人可以直接用搜狗输入法的词库。
然后高频词中还有可能会出现的词,可能为”7月”,”8月”,”大全”,”线路”等等。这些词也可以考虑把它从实体词中踢除。
经过这几轮检查,基本就差不多了,再要精度可以再自行研究。肯定有人问,你折腾了这么久,有什么用?这边只能点到为止。
1.内容关联
2.自动tagging
3.提高站内检索精度
去年到今年搜房和安居客的SEO可以体会一下。
去重
提取实体后,就可以对关键词进行去重。
例如
海南旅游多少钱
海南旅游要多少钱
处理后
海南|旅游
海南|旅游
就可以进行去重了。上面着两个个词,还可以通过实体相同的方法来解决。但是有一些关键词,比如”马尔代夫”和”马代”,”长城”和”八达岭”,用户可以是指一个地方,我们应该怎么处理这些词。我们就需要下面这么一个东西“受控词表”
受控词表
受控词表,就是一种控制词汇含义,并且跟踪其相关词的方法。回到上面的例子,如果你搜索”八达岭”的时候,不能把长城的内容展现出来,相信用户早就跑光了。
受控词表主要有如下三大关系:等价,层级,关联
等价很好理解,比如马尔代夫和马代,那是等价关系,这类词可以说就是一个意思,权值是最高的。在内容推荐中一定要呈现出来。
层级有上下级之分,比如“夫子庙”是”南京景点大全”的下级词。”大成殿”又是”夫子庙”的下级词。在实际应用的时候,当用户在寻找”大成殿”时,网站可以告诉用户你位于”夫子庙”中间,并且推荐夫子庙周围还有些什么好玩的东西,用户一定会非常喜欢。层级关系也是大部分网站都有的信息架构体系,从首页,到目录,到栏目。
关联,有点类似于等价,但是并不完全相同,例如”三亚跟团游”,”海口自助游”,”海南旅游 双飞”。他们没有说明确的上下级关系,但是又不能说完全一样。这类词,我们可以把其作为有关联的东西。可以记录下来。此外,一些内容的自带的属性,比如高,富,帅,可以作为一个相关联的关键词,在内容推荐上更加满足用户的口味。
这边还要提一点,在工作中,我们发现了用户有时候会有一些特殊的词汇来表达自己的需求,比如”麻袋”(谐音马代),或者”百撕不得骑姐”这样该死的输入法错拼,这些关键词都需要存放起来。
最后应该是这样的效果: