在5月16日百度推出“石榴算法”的公告同时,百度站长学院也发布了一篇《谈谈原创项目那点事》的文章,主要是谈到了百度打击网站采集内容泛滥的决心,坚持鼓励原创内容,原创作者,为原创提供合理的排序和流量。百度信誓旦旦地要坚持走识别原创之路,甚至不惜开创项目组打持久战。对此,本人当然是举双手双脚赞成的,只是这条原创识别之路走起来并不容易,甚至有可能衍生出越来越多的岔道。本人在此提出几个疑点,就原创项目所面临的问题提出一些看法。
首先,请分清楚依靠百度生存的网站和不依靠百度生存的网站。就是说有一些网站的流量并不是通过百度关键词搜索进来的,他们并不在意seo和sem为何物。他们有一部分是最原始的建站思路,为了用户体验和用户需要而去建站,用户进入网站觉得好的就通过口碑相传来不断扩大用户群;也有一部分网站是通过其他非搜索渠道为用户得知,形成一个印象认识,时间久了就为越来越多用户使用,这种方式如浏览器植入,软件植入,导航网站展示等;还有部分网站是通过线下推广为用户所熟知,如早期的校内网,现在的团购网站等。所以,其实还是有不少网站是不需要依靠百度生存的,这些网站是否原创内容百度根本管不着。看下淘宝网干脆直接就用robots.txt屏蔽掉百度的收录,却依然是全球alexa排名前20的网站。所以只能说百度的原创项目是针对在百度体系下生存的网站。
其次,在百度体系下生存的高权重网站存在大量的相互采集相互转载,百度如何打击?在谷歌就有过大网站被狠狠打击的情况,之前也有过一些中国大网站作弊,然后被谷歌降低pr的情况出现。但是百度对大网站就纵容得多,之前一个网站在“绿萝算法”上线后依然是购买了数百友链的,观察了几个月这个网站居然一点降权的迹象都没。也不知道是百度算法的问题,还是百度根本就对大网站无可奈何。试问下现在国内的大资讯门户网站有多少新闻内容是不相同的呢?百度会对这些网站进行降权处理么?
其三,百度目前的原创识别“起源”算法对原创文章的识别到底有多精确?看看“起源”算法的原话:“首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。”
这里提出的疑问是,假如说一篇原创文章先出现在一个低权重网站,百度又迟迟未收录这篇文章,这时候一个高权重网站把这篇原创文章采集走了。百度怎么判断?“起源”算法会起作用么?所以本人觉得百度应该提高“起源”算法对原创文章抓取机率,否则你一篇原创文章因为新站权重低难以被收录,之后很久才收录却被百度认定为非原创了,那岂不冤枉?
第四,百度的原创识别对于非内容页是怎么处理呢?现在有很多网站除了内容页外还有很多内容列表页,标题展示页,产品页,商铺页等,对于这些页面百度是怎么处理?像一些分类信息网站或b2b网站的内容列表页可以说是千变万化,但也不排除列表内容中存在大量采集,他们的程序只需要调整一下列表内容发布的顺序就可以制造出很多不同的列表页,百度又如何识别呢?
最后,还是很赞成百度开展原创项目的,只是希望这个项目能够更加顾及到中小站长的利益,毕竟这些群体才是更加依存百度体系成长的。
本文由二五撰写,更多内容请继续关注www.ladybeta.com ,转载请注明出处。
新闻热点
疑难解答