备案控制台

开发者社区

开发者社区人工智能文章正文

Hanlp实战HMM-Viterbi角色标注中国人名识别

2018-10-22 1512

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这几天写完了人名识别模块，与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意，但是胜在训练语料比较新，对质量把关比较严，实测效果很满意。比如这句真实的新闻“签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。

这几天写完了人名识别模块，与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意，但是胜在训练语料比较新，对质量把关比较严，实测效果很满意。比如这句真实的新闻“签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”，分词结果：[签约/v, 仪式/n, 前/f, ，/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/ul, 参加/v, 签约/v, 的/uj, 企业家/n, 。/w]，三个人名“秦光荣”“李纪恒”“仇和”一个不漏。一些比较变态的例子也能从容应对，比如下面：

580e66bf39322e19d3865a10bb07dd164808bacc

这是hankcs将自己的分词与ansj作比较得出的结果，由于自己可以随时调整算法，所以主场占了很大便宜。但是第一句绝对没有放水，说实话能识别出“仇和”这么冷僻的名字着实让人惊喜了一下。

36c6fbdcaa2b87505ca3f0935fd3b901f330638a

开源项目

本文代码已集成到HanLP中开源：https://github.com/hankcs/HanLP

原理

推荐仔细阅读《基于角色标注的中国人名自动识别研究.doc》这篇论文，该论文详细地描述了算法原理和实现。从语料库的整理、标注到最后的模式匹配都讲得清清楚楚。hankcs在这篇论文的基础上做了改进，主要步骤总结如下：

1、对熟语料库自动标注，将原来的标注转化为角色标注。角色标注一共有如下几种：

9df55cfd22a2b71a97dde45f74e7ca485dddf792

hankcs在此基础上拓展了一个S，代表句子的开始。

2、统计标签的出现频次，标签的转移矩阵。

3、对粗分结果角色标注，模式匹配。

hankcs对论文中的几个模式串做了拓充，并且采用了AC模式匹配算法。

体会

论文中将三字名称拆分为BCD，实测在2-gram模型下，C很容易被识别为E，导致人名缺一半。

人民日报2014中的人名并不能覆盖所有常用字，所以hankcs去别的地方找了个人名库，拆成BCD或BE补充了进去。

人民日报2014语料库中有很多错误，比如

去/vf 年老/vi 张中秋/nr 去/vf “/w 泡茶/vi ”/w ，/w 送礼/vi 遭到/v 了/ule 拒绝/v ，/w 老张/nz 担心/v 金额/n 不够/a

中秋很明显不是人名的组成部分，这个必须手工剔除。

“中秋安全”会识别出“中秋安全”来，因为2-gram词典中没有“中秋@安全”这种接续，而有“中@未##人”这种接续。初步的解决方法是手工往2-gram词典里面加一条“中秋@安全”。这反映了这种方法的局限性，另一方面也说明词典的重要性。

8111cf7e2f40a9b21cd0cfac29fec5f03d4f8d91

文章转载自hankcs的博客！

文章标签：

安全

算法

机器学习/深度学习

自然语言处理

大数据资讯

目录

相关文章

汀丶人工智能

|

自然语言处理算法机器人

PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

汀丶人工智能

807 0 0

PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

汀丶人工智能

|

2月前

|

机器学习/深度学习移动开发自然语言处理

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践

汀丶人工智能

38 0 0

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践

扯淡散人

|

4月前

|

机器学习/深度学习人工智能自然语言处理

【一起从0开始学习人工智能0x02】字典特征抽取、文本特征抽取、中文文本特征抽取

【一起从0开始学习人工智能0x02】字典特征抽取、文本特征抽取、中文文本特征抽取

扯淡散人

37 1 1

极智视界

|

4月前

|

机器学习/深度学习人工智能 JSON

极智AI | labelme标注与处理分割数据方法

大家好，我是极智视界。本文详细介绍了 labelme 标注与处理分割数据的方法。

极智视界

59 0 0

183王德发

|

5月前

bert知识库问答实现建筑领域的问答匹配文本相似性计算完整代码数据

bert知识库问答实现建筑领域的问答匹配文本相似性计算完整代码数据

183王德发

59 0 0

183王德发

|

机器学习/深度学习算法

基于机器学习knn算法的手写拼音识别

基于机器学习knn算法的手写拼音识别

183王德发

93 0 0

基于机器学习knn算法的手写拼音识别

heda3

|

机器学习/深度学习算法数据挖掘

K近邻算法（KNN）（包含手写体识别、约会类型识别的代码）

是有监督学习、属于判别模型、支持多分类以及回归、非线性、有预测函数、无优化目标、无优化求解算法。（算法地图）对应每个训练数据xi有对应的标签yi--监督学习；

heda3

135 0 0

K近邻算法（KNN）（包含手写体识别、约会类型识别的代码）

汀丶人工智能

|

数据采集自然语言处理安全

PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(单标签)】

文本分类任务是自然语言处理中最常见的任务，文本分类任务简单来说就是对给定的一个句子或一段文本使用文本分类器进行分类。文本分类任务广泛应用于长短文本分类、情感分析、新闻分类、事件类别分类、政务数据分类、商品信息分类、商品类目预测、文章分类、论文类别分类、专利分类、案件描述分类、罪名分类、意图分类、论文专利分类、邮件自动标签、评论正负识别、药物反应分类、对话分类、税种识别、来电信息自动分类、投诉分类、广告检测、敏感违法内容检测、内容安全检测、舆情分析、话题标记等各类日常或专业领域中。文本分类任务可以根据标签类型分为**多分类（multi class）、多标签（multi label）、层次分类

汀丶人工智能

360 0 0

小小杨树1

|

存储算法

Study-基于知识库的手写体数字识别

Study-基于知识库的手写体数字识别

小小杨树1

183 0 0

Study-基于知识库的手写体数字识别

算法码上来

|

自然语言处理

论文赏析[NAACL19]一个更好更快更强的序列标注成分句法分析器(一）

一个更好更快更强的序列标注成分句法分析器

算法码上来

115 0 0

论文赏析[NAACL19]一个更好更快更强的序列标注成分句法分析器(一）

热门文章

最新文章

随机生成UserAgent的python库（fake-useragent库）

使用zxing识别一幅包含多个二维码的图片

阿里云的SLB，植入cookie和重写cookie有什么区别？

基于Flink的实时日志分析系统实践

如何在服务器上跑python程序

电池技术多年没有较大发展，成为移动设备最大制约

Spread for WinRT 7新功能使用指南

codeforces Soldier and Number Game（dp+素数筛选）

九度oj-1001-Java

Android:随笔——对页面的View进行截图

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势2

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法1

灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标

极值分析：分块极大值BLOCK-MAXIMA、阈值超额法、广义帕累托分布GPD拟合降雨数据时间序列

GARCH-DCC模型和DCC（MVT）建模估计

ARIMA、ARIMAX、动态回归和OLS 回归预测多元时间序列

R语言预测期货波动率的实现：ARCH与HAR-RV与GARCH，ARFIMA模型比较

spss modeler用决策树神经网络预测ST的股票

K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

matlab中使用VMD(变分模态分解)对信号去噪

相关课程

更多

【医学搜索Query相关性判断】赛题及baseline解读

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

【算法实战】8. 集成方法-Adaboost

【算法实战】15. 利用SVD来简化数据

【算法实战】7. 集成方法-随机森林

计算机视觉类比赛汇总

相关电子书

更多

机器学习中，使用Scikit-Leam简单处理文本数据

纯干货|机器学习中梯度下降法的分类及对比分析

纯干货 | 机器学习中梯度下降法的分类及对比分析

相关实验场景

更多

基于函数计算一键搭建手写体OCR识别平台

【文生文】一键部署ChatYuan模型

推荐系统入门之使用ALS算法实现打分预测

下一篇

阿里云oss简介和使用流程