Pyhanlp自然语言处理中的新词识别

简介: 本“新词发现”模块基于信息熵和互信息两种算法,可以在无语料的情况下提取一段长文本中的词语,并支持过滤掉系统中已存在的“旧词”,得到新词列表。

新词发现

“新词发现”模块基于信息熵和互信息两种算法,可以在无语料的情况下提取一段长文本中的词语,并支持过滤掉系统中已存在的“旧词”,得到新词列表。

调用方法

静态方法

一句话静态调用接口已经封装到HanLP中:

    /**

     * 提取词语

     *

     * @param text 大文本

     * @param size 需要提取词语的数量

     * @return 一个词语列表

     */

    public static List<WordInfo> extractWords(String text, int size)

    /**

     * 提取词语

     *

     * @param reader 从reader获取文本

     * @param size   需要提取词语的数量

     * @return 一个词语列表

     */

    public static List<WordInfo> extractWords(BufferedReader reader, int size) throws IOException

    /**

     * 提取词语(新词发现)

     *

     * @param text         大文本

     * @param size         需要提取词语的数量

     * @param newWordsOnly 是否只提取词典中没有的词语

     * @return 一个词语列表

     */

    public static List<WordInfo> extractWords(String text, int size, boolean newWordsOnly)

    /**

     * 提取词语(新词发现)

     *

     * @param reader       从reader获取文本

     * @param size         需要提取词语的数量

     * @param newWordsOnly 是否只提取词典中没有的词语

     * @return 一个词语列表

     */

    public static List<WordInfo> extractWords(BufferedReader reader, int size, boolean newWordsOnly) throws IOException

调用示例请参考com.hankcs.demo.DemoNewWordDiscover 值得注意的是,在计算资源允许的情况下,文本越长,结果质量越高。对于一些零散的文章,应当合并为整个大文件传入该算法。

高级参数

根据语料的长度或用词的不同,默认的参数有可能不能得到最佳的结果。我们可以通过构造不同的NewWordDiscover调整提取算法。该构造函数如下:

/**

 * 构造一个新词识别工具

 * @param max_word_len 词语最长长度

 * @param min_freq 词语最低频率

 * @param min_entropy 词语最低熵

 * @param min_aggregation 词语最低互信息

 * @param filter 是否过滤掉HanLP中的词库中已存在的词语

 */

public NewWordDiscover(int max_word_len, float min_freq, float min_entropy, float min_aggregation, boolean filter)

其中

· max_word_len控制识别结果中最长的词语长度,默认值是4;该值越大,运算量越大,结果中出现短语的数量也会越多。

· min_freq控制结果中词语的最低频率,低于该频率的将会被过滤掉,减少一些运算量。由于结果是按照频率排序的,所以该参数其实意义不大。

· min_entropy控制结果中词语的最低信息熵的值,一般取0.5左右。该值越大,越短的词语就越容易被提取出来。

· min_aggregation控制结果中词语的最低互信息值,一般取50200.该值越大,越长的词语就越容易被提取出来,有时候会出现一些短语。

· filter设为true的时候将使用内部词库过滤掉“旧词”。

 

相关文章
|
8月前
|
自然语言处理 数据可视化 API
ESRE 系列(二):如何部署自然语言处理 (NLP):命名实体识别 (NER) 示例
本文采用示例讲解的方式,介绍使用一个命名实体识别 (NER) NLP 模型来定位和提取非结构化文本字段中预定义类别的实体。我们将通过一个公开可用的模型向您展示如何完成以下几种操作:部署模型到 Elasticsearch 中,利用 new _infer API 查找文本中的命名实体,以及在 Ingest 管道中使用 NER 模型,在文档被采集到 Elasticsearch 中时提取实体。
17997 12
ESRE 系列(二):如何部署自然语言处理 (NLP):命名实体识别 (NER) 示例
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
|
自然语言处理 算法 Java
NLP之相似语句识别
NLP之相似语句识别
162 0
NLP之相似语句识别
|
存储 自然语言处理 UED
[NLP比赛推荐]商品标题实体识别
[NLP比赛推荐]商品标题实体识别
390 0
[NLP比赛推荐]商品标题实体识别
|
自然语言处理 Java API
阿里云自然语言处理--命名实体识别(中文高级版)Quick Start
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。命名实体识别服务可以帮助您快速识别文本中的实体,针对电商领域,识别品牌、产品、型号等,同时也包括一些通用领域实体如人名、地名、机构名、时间日期等。进而挖掘各实体间的关系,是进行深度文本挖掘,知识库构建等常用自然语言处理领域里的必备工具。本文将使用Java Common SDK演示命名实体识别服务的快速调用以供参考。
714 0
阿里云自然语言处理--命名实体识别(中文高级版)Quick Start
|
自然语言处理 算法
NLP(5) | 命名实体识别
NLP(5) | 命名实体识别
357 0
NLP(5) | 命名实体识别
|
机器学习/深度学习 自然语言处理 算法
NLP之ASR:基于python和机器学习算法带你玩转的语音实时识别技术
NLP之ASR:基于python和机器学习算法带你玩转的语音实时识别技术
NLP之ASR:基于python和机器学习算法带你玩转的语音实时识别技术
|
自然语言处理
自然语言处理工具HanLP-基于层叠HMM地名识别
本篇接上一篇内容《HanLP-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。首先说一下上一篇介绍的人名识别效果对比: 只有Jieba识别出的人名准确率极低,基本为地名或复杂地名组成部分或复杂机构名组成部分。
1199 0
|
自然语言处理 Python Ubuntu
自然语言处理工具python调用hanlp中文实体识别
Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。
1814 0
|
1月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术在自然语言处理领域中实现情感分析。通过介绍情感分析的背景和原理,结合深度学习模型如LSTM、BERT等的应用,帮助读者了解情感分析的重要性以及如何利用最新技术实现更准确的情感识别。