备案控制台

开发者社区

开发者社区人工智能文章正文

Hanlp实战HMM-Viterbi角色标注中国人名识别

2018-10-22 1512

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这几天写完了人名识别模块，与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意，但是胜在训练语料比较新，对质量把关比较严，实测效果很满意。比如这句真实的新闻“签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。

这几天写完了人名识别模块，与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意，但是胜在训练语料比较新，对质量把关比较严，实测效果很满意。比如这句真实的新闻“签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”，分词结果：[签约/v, 仪式/n, 前/f, ，/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/ul, 参加/v, 签约/v, 的/uj, 企业家/n, 。/w]，三个人名“秦光荣”“李纪恒”“仇和”一个不漏。一些比较变态的例子也能从容应对，比如下面：

580e66bf39322e19d3865a10bb07dd164808bacc

这是hankcs将自己的分词与ansj作比较得出的结果，由于自己可以随时调整算法，所以主场占了很大便宜。但是第一句绝对没有放水，说实话能识别出“仇和”这么冷僻的名字着实让人惊喜了一下。

36c6fbdcaa2b87505ca3f0935fd3b901f330638a

开源项目

本文代码已集成到HanLP中开源：https://github.com/hankcs/HanLP

原理

推荐仔细阅读《基于角色标注的中国人名自动识别研究.doc》这篇论文，该论文详细地描述了算法原理和实现。从语料库的整理、标注到最后的模式匹配都讲得清清楚楚。hankcs在这篇论文的基础上做了改进，主要步骤总结如下：

1、对熟语料库自动标注，将原来的标注转化为角色标注。角色标注一共有如下几种：

9df55cfd22a2b71a97dde45f74e7ca485dddf792

hankcs在此基础上拓展了一个S，代表句子的开始。

2、统计标签的出现频次，标签的转移矩阵。

3、对粗分结果角色标注，模式匹配。

hankcs对论文中的几个模式串做了拓充，并且采用了AC模式匹配算法。

体会

论文中将三字名称拆分为BCD，实测在2-gram模型下，C很容易被识别为E，导致人名缺一半。

人民日报2014中的人名并不能覆盖所有常用字，所以hankcs去别的地方找了个人名库，拆成BCD或BE补充了进去。

人民日报2014语料库中有很多错误，比如

去/vf 年老/vi 张中秋/nr 去/vf “/w 泡茶/vi ”/w ，/w 送礼/vi 遭到/v 了/ule 拒绝/v ，/w 老张/nz 担心/v 金额/n 不够/a

中秋很明显不是人名的组成部分，这个必须手工剔除。

“中秋安全”会识别出“中秋安全”来，因为2-gram词典中没有“中秋@安全”这种接续，而有“中@未##人”这种接续。初步的解决方法是手工往2-gram词典里面加一条“中秋@安全”。这反映了这种方法的局限性，另一方面也说明词典的重要性。

8111cf7e2f40a9b21cd0cfac29fec5f03d4f8d91

文章转载自hankcs的博客！

文章标签：

安全

算法

机器学习/深度学习

自然语言处理

大数据资讯

目录

相关文章

汀丶人工智能

|

自然语言处理算法机器人

PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

汀丶人工智能

807 0 0

PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

汀丶人工智能

|

2月前

|

机器学习/深度学习移动开发自然语言处理

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践

汀丶人工智能

38 0 0

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践

星辰大海AI领航

|

3月前

【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析

【论文速递】EMNLP2022:随机模态缺失情况下的多模态情感分析

星辰大海AI领航

103 0 0

热烈的马

|

4月前

|

机器学习/深度学习 PyTorch 算法框架/工具

PyTorch搭建循环神经网络（RNN）进行文本分类、预测及损失分析（对不同国家的语言单词和姓氏进行分类，附源码和数据集）

PyTorch搭建循环神经网络（RNN）进行文本分类、预测及损失分析（对不同国家的语言单词和姓氏进行分类，附源码和数据集）

热烈的马

69 0 1

征途黯然。

|

机器学习/深度学习算法

【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

征途黯然。

50 0 0

【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》

ali_linhao

【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析

【论文速递】 EMNLP2022-EMMR:Mitigating Inconsistencies in Multimodal Sentiment Analysis under Uncertain Missing Modalities

ali_linhao

890 0 0

【论文速递】EMNLP2022-随机模态缺失情况下的多模态情感分析

heda3

|

机器学习/深度学习算法数据挖掘

K近邻算法（KNN）（包含手写体识别、约会类型识别的代码）

是有监督学习、属于判别模型、支持多分类以及回归、非线性、有预测函数、无优化目标、无优化求解算法。（算法地图）对应每个训练数据xi有对应的标签yi--监督学习；

heda3

135 0 0

K近邻算法（KNN）（包含手写体识别、约会类型识别的代码）

算法码上来

论文赏析[EMNLP18]用序列标注来进行成分句法分析（二）

本文定义了一种新的树的序列化方法，将树结构预测问题转化为了序列预测问题。该序列用相邻两个结点的公共祖先（CA）数量和最近公共祖先（LCA）的label来表示一棵树，并且证明了这个树到序列的映射是单射但不是满射的，但是提出了一系列方法来解决这个问题。

算法码上来

106 0 0

论文赏析[EMNLP18]用序列标注来进行成分句法分析（二）

算法码上来

|

机器学习/深度学习

论文赏析[EMNLP18]用序列标注来进行成分句法分析（一）

本文定义了一种新的树的序列化方法，将树结构预测问题转化为了序列预测问题。该序列用相邻两个结点的公共祖先（CA）数量和最近公共祖先（LCA）的label来表示一棵树，并且证明了这个树到序列的映射是单射但不是满射的，但是提出了一系列方法来解决这个问题。

算法码上来

130 0 0

论文赏析[EMNLP18]用序列标注来进行成分句法分析（一）

算法码上来

|

机器学习/深度学习自然语言处理

论文赏析[NAACL19]一个更好更快更强的序列标注成分句法分析器（二）

一个更好更快更强的序列标注成分句法分析器

算法码上来

95 0 0

论文赏析[NAACL19]一个更好更快更强的序列标注成分句法分析器（二）

热门文章

最新文章

Mac安装并使用telnet命令操作

OSS回源的几种方式和应用场景

[剑指offer] 孩子们的游戏(圆圈中最后剩下的数)

网络安全系列之二十二 Windows用户账号加固

我理解的一个程序员如何学习前端开发

《社交网站界面设计（原书第2版）》——1.9　为设备之间的空间进行设计

《Microduino实战》——1.2　为什么要开源

.Net函数Math.Round你会用吗？

麻省理工大学新发明：暗黑WiFi透视技术

2014秋C++第19周补充代码哈希法的存储与查找

R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

R语言近似贝叶斯计算MCMC（ABC-MCMC）轨迹图和边缘图可视化

r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现-4

Sentieon | 每周文献-Multi-omics-第四十一期

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-2

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟-1

基于RT-Thread摄像头车牌图像采集系统

R语言极值理论：希尔HILL统计量尾部指数参数估计可视化

【视频】R语言中的分布滞后非线性模型（DLNM）与发病率，死亡率和空气污染示例

sql语句创建数据库

相关课程

更多

【医学搜索Query相关性判断】赛题及baseline解读

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

机器学习基础与回归算法

【算法实战】7. 集成方法-随机森林

【算法实战】8. 集成方法-Adaboost

【算法实战】12. 利用 Apriori 算法进行关联分析

相关电子书

更多

纯干货|机器学习中梯度下降法的分类及对比分析

纯干货 | 机器学习中梯度下降法的分类及对比分析

机器学习中，使用Scikit-Leam简单处理文本数据

相关实验场景

更多

如何快速训练大模型

基于函数计算一键搭建手写体OCR识别平台

【文生文】一键部署ChatYuan模型

推荐系统入门之使用ALS算法实现打分预测

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）