汉语言处理包 HanLP v1.3.5，新功能、优化与维护-阿里云开发者社区

汉语言处理包 HanLP v1.3.5，新功能、优化与维护

2018-11-08 1429

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

HanLP v1.3.5 更新内容：

大幅优化CRF分词和二阶HMM分词，重构CharacterBasedGenerativeModelSegment

自定义词典支持热更新：#563 ，ngram模型支持热加载：#580

新增一个提高用户词典优先级的开关：#633

支持98年人民日报的复合词语料格式，如"[中央/n 人民/n 广播/vn 电台/n]nt"

开放TextRank关键词提取中的最大迭代次数参数：#577

为Term添加equal方法

TextRankKeyword 提取窗口相近词的强化

文本摘要方法支持自定义句子分隔符

提高AC自动机健壮性，添加hasKeyword接口

修复BinTrie.remove不存在的key时导致的问题：#540

解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题：#542

CharTable.txt 添加上下标字符的对应关系

将“t”等不可打印的字符视作分隔符：#584

中文数词与阿拉伯数词切分开

修正全角年份识别中字符串长度错误，修正数字识别工具的错误，增加测试代码。支持读取包含BOM的文本文件。

校对CoreNatureDictionary.txt，删除以分号开头的错误词语:#221 (comment)

修复CoNLLWord中toString方法的bug

微调人名识别模型：#562 删除人名识别模型中的高频动词D标签，降低误命中率，音译人名识别取消外国地名触发

修复Nature.fromString和IOUtil.loadDictionary：#626

修正“还款”的拼音：#565 修正简繁一多对应校验表/梁→梁樑（樑為梁的異體字，由簡體轉為繁體時僅需採用梁即可）:#606

数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.3.5

    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.3.5</version>
    </dependency>

HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

在提供丰富功能的同时，HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非常方便，同时自带一些语料处理工具，帮助用户训练自己的模型。

文章来源于网络

汉语言处理包 HanLP v1.3.5，新功能、优化与维护

热门文章

最新文章

相关课程

相关电子书

相关实验场景