seo干货之百度中文分词技术详解观点

明美无限 2017-04-01 22:30
分享到:
导读

分词技术是搜索引擎对用户提交的关键词进行处理以后,根据用户的关键词串进行匹配的一种技术。虽然谷歌是这种技术的创始者,但由于中文比英文复杂得多,所以中文分词这方面还是百度领先。

分词技术是搜索引擎对用户提交的关键词进行处理以后,根据用户的关键词串进行匹配的一种技术。虽然谷歌是这种技术的创始者,但由于中文比英文复杂得多,所以中文分词这方面还是百度领先。

中文分词有三种方法:字符串匹配的分词法、词义分词法以及统计分词法。

这里概念就不介绍了,我们直接分析案例。我们以“上海网站建设”作为例子,假如这就是你网站的关键词:

这个关键词用字符串匹配的分词是“上海网站建设”,词义分词是“上海网站”、“网站建设”,统计分词是“上海”、“网站”、“建设”。一个词分成这么多个,百度还会按照这些分词词语的匹配、词义的匹配、词语出现的频率,最后决定根据哪些词语捕捉网页。

话不多说,我们在百度输入“上海网站建设”,从搜索结果我们可以看到,除去广告,排名第一的网站红色的关键词大体都是“上海网站建设”以及其分词:

这里有人可能会奇怪,有些网站词义不太相近位置也很靠前,比如:

这主要是因为除去标题意思相近,文章的被关注率,网站主题,网站的外链及权重也是决定其排名的因素。但是这和我们的主题无关就不多介绍了。

然后我们再用百度快照来看一下

你能看到“上海网站建设”被标黄,这是百度给的权重。其中黄色>蓝色>绿色,这里我们看到的全部是黄色,这也就是为什么该网站排名靠前的原因。

所以以这个内容为例,我们最优先考虑的关键词应当是“上海网站建设”以及“上海”,然后再考虑“上海网站”,再考虑“网站建设”。因为“建设“这个内容太宽泛可能与行业无关,我们就不予考虑了。

通过中文分词技术,再熟悉网民搜索的习惯,我们将更容易为我们的网站确定关键词,在提升网站排名上如鱼得水。


百度分词技术
分享到:

1.TMT观察网遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2.TMT观察网的原创文章,请转载时务必注明文章作者和"来源:TMT观察网",不尊重原创的行为TMT观察网或将追究责任;
3.作者投稿可能会经TMT观察网编辑修改或补充。


观点约架