SEO算法-中文分词+TF-IDF算法细解-阿里云开发者社区

　　中文分词技术原理与实战应用

　　关于搜索引擎优化，前面的课程我们对链接分析、站内权重分析等多维度的方向进行深度学习。但是搜索引擎优化好比修炼，前者都是术，而术基本上都可以通用，而本节课程开始我们将用道（算法/思维）来捕捉搜索引擎的规律。很多人都说SEO算法改变了，其实算法从未改变，而是你对SEO的把控改变了。对于道而言，永远是悟性（思维）大于常规。 SEO结果永远是万变不离其宗，如果我们掌控了搜索引擎的算法本质，那么对于任何站点的SEO优化就将变得越来越透彻，把控排名也将越来越轻松！

　　什么是中文分词，为什么需要中文分词？

　　答案：我们都知道对于用户本身而言，是具备意识来进行判断一个网页内容的可读性、通顺度等行为。但是对于搜索引擎本身来说它是不能像用户大脑一样去思考问题。而中文分词可以利用语义分析系统（类似人的大脑）来进行词汇分割，从组，定性等多维度拆解，从而让网页文档通过分词技术进行词汇归类，得到的最后网页多组词的频次，在利用倒排索引与TF-IDF算法与之计算，最终确定网页的核心主题（关键词）。

　　举例：在我们常见的语义模型中，大致分为三种类型的词，符号、中文、英文单词。由于国内搜索引擎多数情况下使用的是中文词汇，但是不少网页也存在大量的英文词汇，所以在考量分词结构的时候不仅仅是用来测试中文含义。而中文分词里面的词性有分为名词、形容词、动词、副词等词性，尽管我们作为用户可以一眼看出标题、描述、页面内容的含义，但是对于搜索引擎本身来讲是不具备这类“意识”，而语义分析是最好的一种模拟用户行为的方式。比如“漂亮_漂亮的含义_漂亮的意思”这个标题对于用户而言都知道是阐述漂亮，但是对于搜索引擎来说并不知道，而中文分词可以将页面的词隔离开来进行判断。这里的下划线可以作为分词符号，分词符号的最大作用是用于将一个词组合并成一个词，比如用户查询漂亮的含义，而标题中漂亮的含义通过分词符号可以让标题精准包含该关键词（关键词不间断）。再比如排行榜这个词语，本身就是一个词，不可能把排行和榜分开，但是如果采用了分词符号比如排行_榜，那么该标题就分为了两个关键词。分词符号的最大作用就是让关键词（词或词组）变成一个词，用于增强网页的唯一主题强调，从而增加该关键词在网页文档中的权重（强调）程度。

　　应用：我们在借助中文分词技术进行搜索引擎优化的时候强调三个原则，而这三个原则的把控是提升网页核心关键词权重的核心基石。

　　原则一：名词优先

　　首先我们简单的理解什么是名词，从词性来讲名词是通过概念性的描述一种人、事、物的名称。比如父亲、山药、意义等这类带有名称属性的词性叫做名词。而漂亮、矮小等这类词属于形容词，蹦跑、种菜这种则属于动词。而我们正常的词性来讲，名词是词性范围最广，词量最多的一种词。比如我们优化的产品词，业务词等绝大多数都是名词属性。从搜索引擎角度来说，名词的权重（重要程度）要大于其他属性。比如“我的父亲”，该标题父亲显然是核心词，而不是我或者得。

　　原则二：频次优先

　　之所以有频次优先原则，那是因为我们在强调一个主题的核心程度的同时也要思考该词在该网页当中的比重，比如“漂亮_漂亮的含义_漂亮的意思”，尽管漂亮是形容词，含义是名词，但是该标题的核心词绝对是漂亮而不是含义，因为频次大于词性。所以在频次相等的情况下，名词权重（重要程度）最高。频次不等的情况下，频次最高的关键词强调性最大。

　　原则三：分词符号优先

　　之所以才用到分词符号大多数是因为，我们很多时候优化的一个关键词并不是单一的词汇，而是通过多个词组合起来的词组。而词组里面可能不一定是名词，可能是名词+动词、名词+形容词等组合搭配的词汇。如果我们不间断的去写一个标题比如“我的语文老师很漂亮”，该标题我的、语文、老师均为名词，如果没有任何分词符号，该标题通过分词就是我的、语文、老师、很、漂亮。但是如果我们用【】将语文老师扩起来，那么该标题分词以后就是我的、语文老师、很、漂亮。分词符号的最大作用就是将网页的一个词组通过分词符号的替换来达到词组并归或词分离，从而增强网页核心关键词的主题强调作用。

　　语义分析系统：http://ictclas.nlpir.org/nlpir/

　　示例：上图案例当中，焦大seo后面采用了冒号，这里的冒号其实就是分词符号，如果我们不加冒号，该标题反倒像一句话，通过分词符号可以有效的将词分离出来，从而提升该关键词在网页当中的整体核心权重。右图seocnm培训，我们也采用了下划线作为关键词的分词符号，如果我们不加下划线，那么该标题就是“SEO培训_实战SEO技术培训-seocnm”。从语义上讲，我们可以念成seo培训、实战seo、培训班、技术培训、这类组合方式会有非常多，并且不加分词符号让整个标题有种让人看不懂的感觉。所以我们要学会巧妙使用分词符号，从短语或者词组进行分离，从而达到关键词独立性的目的，也是为了增强网页关键词的唯一性。

　　思考：什么是TF，什么是IDF，为什么需要TF-IDF算法？

　　答案：TF（全称TermFrequency），中文含义词频，简单理解就是关键词出现在网页当中的频次。IDF（全称InverseDocumentFrequency），中文含义逆文档频率，简单来说就是该关键词出现在所有文档里面的一种数据集合。比如关键词“中国”在A网页里面出现了100次，那么它的TF值则是100次（词频），假设搜索引擎所收录的所有网页里面有1亿网页包含“中国”该关键词，那么IDF将由IDF公式计算出它对应的数据值。统一来理解则是TF是计算自己网页内的关键词频次，而TDF是计算所有文档里面包含该关键词的一种概率数值。

　　计算公式：

　　TF=某个词在文章中出现的次数=某个词在文章中出现的次数/文章总词数

　　IDF=log（语料库文档总数/（包含该词文档数+1））

　　TF-IDF=词频（TF）*逆文档频率（IFD）

　　备注：关于IDF中的计算公式如果不理解的话可以简单的理解是通过一个总词库文档数除以包含该词的一个文档总数+1，通过log对数运算得出的一种计算结果。假设A关键词在B网页中出现了10次，并且所有文档语料库有1000亿张网页，A关键词在百度搜索结果出现的次数为100w次，那么IDF=log（1000亿/1000001）。TF-IDF=10*log（1000亿/1000001），该值不会计算可忽略在，重点理解该算法计算原理。

　　算法思想：

　　TF-IDF的核心思想是通过该算法进行有效的计算网页的核心关键词。虽然语义分析以及中文分词能够简单的计算出页面的关键词主题，但是由于互联网内容信息重复度较大，同一个内容单纯从分词角度来讲是不足以满足搜索引擎针对网页的内容是否更加符合用户的需求。而TF-IDF则可以用过算法公式来计算用户搜索词与网页之间的相似度。

　　比如网页标题“小明的同桌叫马天”，这里面的、叫在搜索引擎里面一般都称为停用词，也就是无意义词。而去掉这些词剩下的词则是小明、同桌、马天。根据分词原理，这三个词都是名词，那么作为用户而言去看这个标题明显知道是阐述马天是网页的核心关键词，但是对于搜索引擎来说并不能深刻的理解该网页的核心关键词。对于这三个词，一般我们都有一个词的重要程度系数。从常见度来说，越常见的东西则不重要，反之越不常见越重要。那么搜索引擎是如何知道该词的常见程度呢？可以通过相关搜索结果数来计算关键词的重要度。

　　算法思想：

　　根据右图的关键词相关结果可以得出，马天数值最小，也是最不常见的词，那么常见度排序结果则是小明>同桌>马天。现在在返回看我们最前面的陈臣案例就不难发现为何该词有排名，标题其他词却没有排名的原因。正是因为先通过分词，然后借助分词符号将短语分离，从而通过TF-IDF的核心算法思想进行操作排名。

　　算法应用：

　　关于TF-IDF的算法实战应用，最常见的方式则是利用TF-IDF算法的计算方式来进行定位网页的核心词，从而网站大量提升关键词排名。首先我们要理解真正原创文章的含义，真正的内容原创有两种，一种是网页内容与总语料库文档不重合，另一种则是关键词与该关键词的相关结果文档不重合。而TF-IDF最佳的运用方式则是可以采用换汤不换药的操作方式来进行关键词排名。比如优化一个关键词“山药的功效与作用”，那么我们可以去抄袭一篇“人参的功效与作用”的文章，并且替换网页里面的所有人参关键词，尽管这篇文章在人参里面是重复性很高的文章。但是在山药的功效与作用里面它就是独一无二的。并且刻意增加山药文章里面的TF值，让搜索引擎认定该网页的核心关键词。如图（下一页）！

　　算法应用：

　　上图（上一页）我们可以看到，通过TF-IDF算法应用的经典案例，内容全部抄袭，网页标题（title）与文章标题不同，目的就是用来提升网页的点击率。并且文章标题我们可以发现互博国际该关键词是一个由多个词组成的词组，通过分词符号可以让互博国际变成一个关键词（词组形成关键词）。并且在网页内容里面，自然的分布关键词的频次（TF），从而达到关键词的强调性，即使内容在其他文章里面出现，但是在互博国际里面，该内容则是独一无二的原创（不重合）。为了提升网页的点击率，我们可以将网页的标题（title）写的更加规范，这样排名一旦上来，还有利于用户的点击，从而提升网页关键词的排名更佳状态。

　　法应用：

　　上图（上一页）我们可以看到，张玉鹏该网页出现的内容重复度极高、并且网页内容与标题也基本一致，那为何偏偏只有我的站张玉鹏有排名，而其他网站却没有排名。单纯从站点的权重评级来看，www.51dx.org站点也不是最好的，这里面最大的原因则是TF问题。尽管内容都一致，甚至H标签、加粗这类影响站内权重的标签都规范了网页的权重程度。但是51dx站点TF-IDF值最小，从频次来讲，51dx站点里面的张玉鹏关键词是所有出现重复内容里面TF值最大的一个站点（频次），所以搜索引擎在定位一个核心关键词的时候，会将TF值最大的一个站点进行结果排序。并且结合IDF思想，张玉鹏搜索结果众多，该网页在张玉鹏里面的排名又是独一无二的内容页面。所以我们在借助TF-IDF算法操作排名的时候，尽可能的把TF值放大（放大的时候一定要保持关键词分布自然性），即使是抄袭的文章，也要把抄袭做到极致，从而引起网页关键词的排名！

SEO算法-中文分词+TF-IDF算法细解

热门文章

最新文章

相关课程

相关电子书

相关实验场景