大数据资讯 + 关注
hadoop爱好者

大数据资讯 发表了文章:

HanLP vs LTP 分词功能测试

发布时间:2019-04-19 11:22:11 浏览:581 回帖 :0

  文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0   测试思路   使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能。   语料库选取1998年...

java 测试 test input HanLP ltp

大数据资讯 发表了文章:

HanLP Android 示例

发布时间:2019-04-17 09:59:12 浏览:345 回帖 :0

  portable版   portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖:   dependencies {     compile ...

android path 配置 string open HanLP

大数据资讯 发表了文章:

HanLP中文分词Lucene插件

发布时间:2019-04-15 11:27:38 浏览:734 回帖 :0

基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。

配置 solr class 自然语言处理 插件 index type lucene hanlp分词

大数据资讯 发表了文章:

pyhanlp:hanlp的python接口

发布时间:2019-04-12 13:02:25 浏览:9537 回帖 :0

HanLP的Python接口,支持自动下载与升级HanLP,兼容py2、py3。 安装 pip install pyhanlp 使用命令hanlp来验证安装,如因网络等原因自动安装失败,可参考手动...

python 配置 多线程 pyhanlp python接口

大数据资讯 发表了文章:

Hanlp自然语言处理工具之词法分析器

发布时间:2019-04-10 11:31:52 浏览:701 回帖 :0

本章是接前两篇《分词工具Hanlp基于感知机的中文分词框架》和《基于结构化感知机的词性标注与命名实体识别框架》的。本系统将同时进行中文分词、词性标注与命名实体识别3个任务的子系统称为“词法分析器”。

在线学习 string 自然语言处理 analyze HanLP 词法分析器 中文分词工具

大数据资讯 发表了文章:

基于结构化感知机的词性标注与命名实体识别框架

发布时间:2019-04-08 15:01:07 浏览:544 回帖 :0

上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。 词性标注 训练 词性标注是分词后...

exception void test 词性标注 命名实体识别

大数据资讯 发表了文章:

分词工具Hanlp基于感知机的中文分词框架

发布时间:2019-04-03 11:36:31 浏览:730 回帖 :0

结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用

算法 线程 测试 string exception 多线程 性能测试 test hanlp分词 结构化感知机

大数据资讯 发表了文章:

Android环境下hanlp汉字转拼音功能的使用介绍

发布时间:2019-04-01 14:37:29 浏览:600 回帖 :0

    由于项目需要在Android手机设备上实现汉字转拼音功能(支持多音字),于是首先想到了Pinyin4j+多音字映射对照表的实现方案,并在项目中试用了一段时间,发现数据量大时,其耗时非常严重。...

android github 汉字转拼音 HanLP

大数据资讯 发表了文章:

汉语言处理工具pyhanlp的拼音转换与字符正则化

发布时间:2019-03-29 13:49:01 浏览:640 回帖 :0

汉字转拼音 HanLP中的汉字转拼音功能也十分的强大。 说明: l HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。 l HanLP能够识别多音字,也能...

配置 HanLP 拼音转化

大数据资讯 发表了文章:

汉语言处理工具pyhanlp的简繁转换

发布时间:2019-03-29 10:42:18 浏览:708 回帖 :0

HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。

算法 hanlp分词 简繁转换

大数据资讯 发表了文章:

Hanlp中N最短路径分词详细介绍

发布时间:2019-03-25 15:03:20 浏览:658 回帖 :1

N-最短路径 是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串...

算法 index hanlp分词 N最短路径分词

大数据资讯 发表了文章:

Hanlp1.7版本的新增功能一览

发布时间:2019-03-22 10:21:58 浏览:1471 回帖 :0

Hanlp1.7版本在去年下半年的时候就随大快的DKH1.6版本同时发布了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一个简单的汇总介绍。

模块 同步 空格 自然语言处理 数组 HanLP

大数据资讯 发表了文章:

Hanlp汉字转拼音使用python调用详解

发布时间:2019-03-20 11:59:46 浏览:838 回帖 :0

1、hanlp简介 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义...

python 架构 算法 java jvm 配置 Processing 自然语言处理 arraylist hanlp分词

大数据资讯 发表了文章:

如何在hanlp词典中手动添加未登录词

发布时间:2019-03-18 15:32:57 浏览:1903 回帖 :0

我们在使用hanlp词典进行分词的时候,难免会出现分词不准确的情况,原因是由于内置词典中并没有收录当前的这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作,下...

hanlp词典

大数据资讯 发表了文章:

Hanlp自然语言处理中的词典格式说明

发布时间:2019-03-15 11:31:24 浏览:3947 回帖 :0

使用过hanlp的都知道hanlp中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了hanlp中的词典格式,以满足用户自定义的需要。

空格 自然语言处理 数据结构 utf-8 数组 HanLP 词典格式

大数据资讯 发表了文章:

中文分词算法工具hanlp源码解析

发布时间:2019-03-13 13:55:05 浏览:570 回帖 :0

词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。

算法 源码 数组 HanLP

大数据资讯 发表了文章:

Hanlp分词1.7版本在Spark中分布式使用记录

发布时间:2019-03-11 15:50:52 浏览:606 回帖 :0

新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度,还需要一段时间再给大家详细分享整理的内容。昨...

分布式 java hdfs 源码 path spark string 自然语言处理 Create HanLP

大数据资讯 发表了文章:

Window离线环境下如何安装pyhanlp

发布时间:2019-03-08 11:13:52 浏览:748 回帖 :0

Hanlp在离线环境下的安装我是没有尝试过的,分享SunJW_2017的这篇文章就是关于如何在离线环境下安装hanlp的。我们可以一起来学习一下!

python java Window static 自然语言处理 html hanlp安装

大数据资讯 发表了文章:

如何编译运行HanLP自然语言处理包

发布时间:2019-03-06 13:11:52 浏览:627 回帖 :0

master分支 对于master分支,编译方法如下: git clone  https://github.com/hankcs/HanLP.git mvn install -DskipTests...

java 模块 git test 自然语言处理 单元测试 HanLP

大数据资讯 发表了文章:

如何在linux服务器上使用hanlp

发布时间:2019-03-04 10:40:23 浏览:681 回帖 :0

关于如何在linux服务器上使用hanlp也有分享过一篇,但分享的内容与湘笑的这篇还是不同的。此处分享一下湘笑的这篇hanlp在linux服务器上使用的文章,供新手朋友学习之用。

linux java 服务器 源码 测试 脚本 demo HanLP

3
更多>
更多>
游客rlggxsbbepzcy
游客rlggxsbbepzcy
文章:0丨 粉丝:0丨 话题:0
我赢博赛尔
我赢博赛尔
文章:0丨 粉丝:0丨 话题:0
1225428242540629
1225428242540629
文章:0丨 粉丝:0丨 话题:0
zz2019
zz2019
文章:0丨 粉丝:2丨 话题:0
1679809537302902
1679809537302902
文章:0丨 粉丝:0丨 话题:0
漠北孤狼
漠北孤狼
文章:0丨 粉丝:0丨 话题:0