开发者社区人工智能文章正文

HanLP的配置及使用

2018-11-15 20584

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

HanLP的介绍主页：

http://hanlp.linrunsoft.com/

HanLP的GitHub主页：

https://github.com/hankcs/HanLP

HanLP的具体说明讲解主页：

http://www.hankcs.com/nlp/hanlp.html

项目结构图

文章来源于Jessie_Sun_的博客

文章标签：

自然语言处理

蓝天白芸朵

六月的雨在钉钉

缓存自然语言处理

elasticsearch hanlp插件自定义词典配置

简要讲述elasticsearch hanlp 插件自定义词典配置

六月的雨在钉钉

789 1 1

大数据资讯

自然语言处理搜索推荐索引

基于hanlp的es分词插件

摘要：elasticsearch是使用比较广泛的分布式搜索引擎，es提供了一个的单字分词工具，还有一个分词插件ik使用比较广泛，hanlp是一个自然语言处理包，能更好的根据上下文的语义，人名，地名，组织机构名等来切分词Elasticsearch默认分词输出： IK分词输出： hanlp...

大数据资讯

1475 0 0

大数据资讯

自然语言处理

Ansj与hanlp分词工具对比

一、Ansj1、利用DicAnalysis可以自定义词库： 2、但是自定义词库存在局限性，导致有些情况无效：比如：“不好用“的正常分词结果：“不好，用”。（1）当自定义词库”好用“时，词库无效，分词结果不变。

大数据资讯

1057 0 0

大数据资讯

HanLP-分类模块的分词器介绍

最近发现一个很勤快的大神在分享他的一些实操经验，看了一些他自己关于hanlp方面的文章，写的挺好的！转载过来分享给大家！以下为分享原文（无意义的内容已经做了删除）如下图所示，HanLP的分类模块中单独封装了适用分类的分词器，当然这些分词器都是对HanLP提供的分词器的封装。

大数据资讯

5951 0 0

大数据资讯

自然语言处理

HanLP-实词分词器详解

在进行文本分类（非情感分类）时，我们经常只保留实词（名、动、形）等词，为了文本分类的分词方便，HanLP专门提供了实词分词器类NotionalTokenizer，同时在分类数据集加载处理时，默认使用了NotionalTokenizer分词器。

大数据资讯

1641 0 0

大数据资讯

自然语言处理 Java Maven

HanLP中文分词Lucene插件

基于HanLP，支持包括Solr（7.x）在内的任何基于Lucene（7.x）的系统。

大数据资讯

1965 0 0

大数据资讯

自然语言处理

如何在hanlp词典中手动添加未登录词

我们在使用hanlp词典进行分词的时候，难免会出现分词不准确的情况，原因是由于内置词典中并没有收录当前的这个词，也就是我们所说的未登录词，只要把这个词加入到内置词典中就可以解决类似问题，如何操作，下面我们就看一下具体的步骤

大数据资讯

2631 0 0

大数据资讯

自然语言处理算法

中文分词算法工具hanlp源码解析

词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话，那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续，同时也可能有多个前驱，它们构成的图我称作词图。

大数据资讯

1671 0 0

蓝天白芸朵

自然语言处理 Java 索引

HanLPTokenizer HanLP分词器

anlp在功能上的扩展主要体现在以下几个方面:•关键词提取 •自动摘要•短语提取 •拼音转换•简繁转换•文本推荐下面是 hanLP分词器的代码注：使用maven依赖 com.hankcs hanlp portable-1.

蓝天白芸朵

1594 0 0

大数据资讯

自然语言处理

在Hanlp词典手动添加未登录词的方式介绍

在使用Hanlp词典进行分词的时候，会出现分词不准的情况，原因是内置词典中并没有收录当前这个词，也就是我们所说的未登录词，只要把这个词加入到内置词典中就可以解决类似问题，如何操作呢，

大数据资讯

1110 0 0

HanLP的配置及使用

热门文章

最新文章

相关电子书