简单有效的多标准中文分词详解

简介: 本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。

本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。

(相关内容已经集成到大快的hanlp中,代码和语料可访问github上的hanlp开源项目主页查询)

自然语言处理,特别是中文处理中,语料库往往珍稀且珍贵。具体到中文分词,也是如此。为了做出一个实用的系统,不光需要高效的算法,大规模语料库也必不可少。然而对于缺乏经费的研究团队和个人,却往往只能得到sighan2005等屈指可数的几个小型语料库。即便如此,这些语料库的标注规范还互不兼容,无法混合起来训练(我们试验验证了这一点):

36865066a9cb89830cbe341a12b00e298ef6d328 

 

比如PKU的最大特点就是姓名拆分为“姓”+“名”,MSR的标志则是命名实体构成大量长单词,而港台地区的语言习惯本来就与大陆不同。这些差异导致无法简单合并各方语料形成一个更大量级的语料库,只能在某一个语料库上训练,浪费了其他标注数据。

已经有工作开始研究如何利用多方语料库来联合学习中文分词,比如 Chen 20171精心设计的对抗神经网络,针对每个语料库提取分词标准相关或无关的特征。然而该工作并没有达到前沿的准确率,甚至联合训练的成绩还比不上以前单独训练的分数,无法体现联合学习的本意与优势。

事实上,这些标注风格迥异的分词语料像极了机器翻译中的多国语言:表达类似的意思,却采用了不同的方式。以前的多语种互译系统也是需要针对每个语种pair设计一对encoder-decoder:

 

163d87b2bc8c0a3749ca5795e20f5af5f2a674df 

图片转自斯坦福大学CS224n讲义

 

nn种语言来讲,就需要n×(n−1)n×(n−1)对encoder-decoder。类似地,针对每个分词语料库设计网络层的话,对nn种分词标准,就需要nn个私有层。这样的系统臃肿不堪,过度复杂,也无法应对Zero-Shot Translation问题(缺乏某两个语言之间的平行语料)。

谷歌的解决方案说来简单,却不失优雅。聪明之处在于不修改网络架构,而是在输入数据上做文章。只需在输入平行语料pair中人工加入目标语种的标识符,就可以把所有语种的平行语料混合在一起训练了:

ddba5b51976cef68f08c90d20471187f313949cf 

图片转自斯坦福大学CS224n讲义

 

这的确是长期跟工业生产线打交道的人才能想出来的实用方法。

受谷歌的多语种翻译系统启发,我们发现只需在句子首尾添加一对标识符,即可平滑无缝地将多标准语料库混合起来训练。具体做法是用一对闭合的<dataset> </dataset>将每个句子包裹起来:

8889aef52d928e9450e3fbcfd7737f4e005cc3ed 

 

接下来就可以通过大家熟悉的Bi-LSTM-CRF等序列标注模型联合训练了。在具体联合训练中,将这两个人工标识符视作普通字符即可,也不必人工区分句子的来源。这两个人工标识符会提示RNN这个句子属于哪种分词标准,使其为每个字符生成的contexual representation都受到该分词标准的影响。

在测试的时候,这两个人工标识符起到指定所需分词标准的作用。当然,公平起见标识符并不计入准确率的计算。

 

代码

连同语料库一起开源在GitHub上,可访问hanlp开源项目查看

调用脚本只需一两句话,请参考GitHub上的说明。

结果

我们在标准的sighan2005和sighan2008上做了实验,在没有针对性调参的情况下依然取得了更高的成绩(当时设备条件简陋,所以在所有数据集上都用了同一套超参数)。所有分值都通过了官方评测脚本的验算。

sighan2005

下图的baseline是在各个语料库上单独训练的结果,+naive是合并语料却不加标识符的结果,+multi是我们提出的联合训练方案的结果。

ff065b1f0228da3511d5f725313bc23846085684 

 

我们使用的特征是极小的,仅仅是字符和bigram。如果像最近流行的做法那样加入12个ngram、词典特征(word embedding),可能还会有进一步提升。但我们的论文中心是一个简单的多标准分词方案,主打精简高效,并非追求高分胜过效率,所以没有采用这些特征工程的手段。

sighan2008

我们也在标准的sighan2008上做了相同的试验,结果是:

b1aba739fe604e332c9a455123af271b8793b701 

 

值得一提的是,我们并没有针对sighan2005和sighan2008分别调参,而是放弃调参、在所有数据集上沿用了PKU的超参数。这是由于我们简陋的设备条件限制;欢迎计算力充裕的朋友自行调参,或许能有更好的结果。

10in1

由于sighan2008语料库是收费的,难以获取,没有授权的情况下也无法二次发布。同时我们不希望收费语料库成为阻碍小团队与个人研究者的壁垒,所以我们在1010个公开的语料库上做了额外的试验。

 

1010个语料库分别是来自sighan2005的44份语料库以及

1、Universal Dependencies Project的UDC (Universal Dependencies Treebank Chinese)

2、 Stanford CoreNLP 公开的 CTB6 (Chinese Tree Bank 6)

3、由山西大学发布的 SXU

4、由国家语委公布的 CNC 语料库

5、由王威廉老师公开的微博树库 WTB (Wang et al. 2014 2)

6、由张梅山老师公开的诛仙语料库 ZX (Zhang et al. 2014 3)。

 

语料库的授权信息如下(如有错误,欢迎反馈):

8fc7e72066a228fe12e389ecc2eb1c3b357ab084 

 

虽然部分语料库不常见于文献,但它们所属领域不同(新闻、微博、小说、港台)、数据规模迥异,恰好可以用来检验多标准分词模型的泛用性。我们的测试结果是:

f9429e69a30dbaebc0196707e06f7d403174d191 

(备注:此处与 Chen 2017 无法构成直接比较)

由于RNN训练很慢,为了方便复现结果,我们提供包含随机数在内的命令行:

 

1./script/train.sh joint-10in1 --dynet-seed 10364 --python-seed 840868838938890892

 

除非依赖类库版本变迁,否则应该能够保证复现我们的结果。

我们还考察了这些人工标识符所起的作用,将它们的embedding通过t-SNE可视化出来后,发现几乎没有显著的相似性:

01e7ec77e957aae3bf11303f87d98869be5798ee 

它们似乎起的作用都不相同。

 

结论

这是一种简单的多标注中文分词解决方案,可以在不增加模型复杂度的情况下联合多个语料库训练单个模型。该方案虽然简单,但的确带来了显著的性能提升(特别是对于小数据集如WTB)。同时我们也注意到特别大的数据集受益很小或无法从中受益(MSR),留作未来研究。我们希望该方法成为多标准中文分词的一个baseline,或生产系统中的一个物美价廉的拓展。

 

作者:hankcs 大快搜索高级研究员

相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 搜索推荐
北大开源分词工具包: 准确率远超THULAC、jieba 分词
北大开源分词工具包: 准确率远超THULAC、jieba 分词
|
10月前
|
机器学习/深度学习 自然语言处理 算法
ES中的中文分词技术,很牛逼!
ES中的中文分词技术,很牛逼!
203 0
ES中的中文分词技术,很牛逼!
|
自然语言处理 算法 Java
第三方中文分词器|学习笔记
快速学习第三方中文分词器
144 0
第三方中文分词器|学习笔记
实现一个通用的中英文排序工具
利用Collator类可以轻松实现排序,但是我们可能有各种model都需要进行排序,这样就会有一个问题,如果单独为每个model写一段排序代码,代码重复量很大。 所以我打算写一个通用的工具,使用泛型+注解+反射的方式来解决。
161 0
|
XML 自然语言处理 数据格式
如何使用中文维基百科语料
前言 在做自然语言处理时很多时候都会需要中文语料库,高质量的中文语料库较难找,维基百科和百度百科算是比较不错的语料库。
2789 0
|
自然语言处理 算法 测试技术
分词工具Hanlp基于感知机的中文分词框架
结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用
2042 0
|
自然语言处理 测试技术 Python
hanlp和jieba等六大中文分工具的测试对比
本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友!
5716 0
|
自然语言处理 算法 Java
pyhanlp 中文词性标注与分词简介
如果想要只获取词性也是可以的,因为原分词器返回的是Java中的ArrayList属性,list中的每个单元都是一个term类,因此我们也可以通过获取term中的word字段来直接获取词语,或者nature属性,直接获取词性。这一特征,我们在之后也会用到。
4440 0
|
自然语言处理 Linux
中文分词工具比较
五款中文分词工具的比较,尝试的有jieba,SnowNLP,thulac(清华大学自然语言处理与社会人文计算实验室),StanfordCoreNLP,pyltp(哈工大语言云),环境是Win10,anaconda3.
4989 0
|
自然语言处理 搜索推荐 Java
Hanlp等七种优秀的开源中文分词库推荐
中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。
3740 0