大数据资讯 + 关注
hadoop爱好者

大数据资讯 发表了文章:

Hanlp1.7版本的新增功能一览

发布时间:2019-03-22 10:21:58 浏览:19 回帖 :0

Hanlp1.7版本在去年下半年的时候就随大快的DKH1.6版本同时发布了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一个简单的汇总介绍。

模块 同步 空格 自然语言处理 数组 HanLP

大数据资讯 发表了文章:

Hanlp汉字转拼音使用python调用详解

发布时间:2019-03-20 11:59:46 浏览:154 回帖 :0

1、hanlp简介 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义...

python 架构 算法 java jvm 配置 Processing 自然语言处理 arraylist hanlp分词

大数据资讯 发表了文章:

如何在hanlp词典中手动添加未登录词

发布时间:2019-03-18 15:32:57 浏览:45 回帖 :0

我们在使用hanlp词典进行分词的时候,难免会出现分词不准确的情况,原因是由于内置词典中并没有收录当前的这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作,下...

hanlp词典

大数据资讯 发表了文章:

Hanlp自然语言处理中的词典格式说明

发布时间:2019-03-15 11:31:24 浏览:3409 回帖 :0

使用过hanlp的都知道hanlp中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了hanlp中的词典格式,以满足用户自定义的需要。

空格 自然语言处理 数据结构 utf-8 数组 HanLP 词典格式

大数据资讯 发表了文章:

中文分词算法工具hanlp源码解析

发布时间:2019-03-13 13:55:05 浏览:161 回帖 :0

词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。

算法 源码 数组 HanLP

大数据资讯 发表了文章:

Hanlp分词1.7版本在Spark中分布式使用记录

发布时间:2019-03-11 15:50:52 浏览:117 回帖 :0

新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度,还需要一段时间再给大家详细分享整理的内容。昨...

分布式 java hdfs 源码 path spark string 自然语言处理 Create HanLP

大数据资讯 发表了文章:

Window离线环境下如何安装pyhanlp

发布时间:2019-03-08 11:13:52 浏览:281 回帖 :0

Hanlp在离线环境下的安装我是没有尝试过的,分享SunJW_2017的这篇文章就是关于如何在离线环境下安装hanlp的。我们可以一起来学习一下!

python java Window static 自然语言处理 html hanlp安装

大数据资讯 发表了文章:

如何编译运行HanLP自然语言处理包

发布时间:2019-03-06 13:11:52 浏览:276 回帖 :0

master分支 对于master分支,编译方法如下: git clone  https://github.com/hankcs/HanLP.git mvn install -DskipTests...

java 模块 git test 自然语言处理 单元测试 HanLP

大数据资讯 发表了文章:

如何在linux服务器上使用hanlp

发布时间:2019-03-04 10:40:23 浏览:325 回帖 :0

关于如何在linux服务器上使用hanlp也有分享过一篇,但分享的内容与湘笑的这篇还是不同的。此处分享一下湘笑的这篇hanlp在linux服务器上使用的文章,供新手朋友学习之用。

linux java 服务器 源码 测试 脚本 demo HanLP

大数据资讯 发表了文章:

hanlp提取文本关键词的使用方法记录

发布时间:2019-03-01 10:02:04 浏览:324 回帖 :0

如何在一段文本之中提取出相应的关键词呢? 之前有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。

根目录 配置 demo hanlp分词 文本关键词提取

大数据资讯 发表了文章:

开源自然语言处理工具包hanlp中CRF分词实现详解

发布时间:2019-02-27 13:15:26 浏览:392 回帖 :0

 CRF简介 CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题。 [gerative-discriminative.png]  CRF训练 这类耗时的任...

算法 函数 c++ 序列 自然语言处理 CRF分词

大数据资讯 发表了文章:

hanlp和jieba等六大中文分工具的测试对比

发布时间:2019-02-26 15:31:30 浏览:3142 回帖 :0

本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇...

配置 测试 jieba HanLP

大数据资讯 发表了文章:

Java利用hanlp完成语句相似度分析的案例详解

发布时间:2019-02-23 10:36:32 浏览:272 回帖 :0

在做考试系统需求时,后台题库系统提供录入题目的功能。在录入题目的时候,由于题目来源广泛,且参与录入题目的人有多位,因此容易出现录入重复题目的情况。所以需要实现语句相似度分析功能,从而筛选出重复的题目并...

java string static stream html list HanLP

大数据资讯 发表了文章:

pyhanlp文本分类与情感分析

发布时间:2019-02-20 15:42:49 浏览:268 回帖 :0

本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读...

线程 根目录 string pyhanlp

大数据资讯 发表了文章:

自然语言处理工具hanlp关键词提取图解TextRank算法

发布时间:2019-02-20 11:17:38 浏览:124 回帖 :0

TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。...

算法 程序员 string 自然语言处理 hanlp关键词提取

大数据资讯 发表了文章:

Hanlp分词之CRF中文词法分析详解

发布时间:2019-02-18 15:33:16 浏览:1593 回帖 :0

这是另一套基于CRF的词法分析系统,类似感知机词法分析器,提供了完善的训练与分析接口。   CRF的效果比感知机稍好一些,然而训练速度较慢,也不支持在线学习。 默认模型训练自OpenCorpus/p...

string test CRF分词 中文识别

大数据资讯 发表了文章:

NLP自然语言处理中的hanlp分词实例

发布时间:2019-02-18 11:55:22 浏览:2816 回帖 :0

本篇分享的依然是关于hanlp的分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果。为何会如此,不妨一起学习一下 gladosAI 的这篇文...

python java 自然语言处理 NLP 语音翻译 hanlp分词 jieba分词

大数据资讯 发表了文章:

Pyhanlp自然语言处理中的新词识别

发布时间:2019-02-15 15:48:14 浏览:457 回帖 :0

本“新词发现”模块基于信息熵和互信息两种算法,可以在无语料的情况下提取一段长文本中的词语,并支持过滤掉系统中已存在的“旧词”,得到新词列表。

算法 static 自然语言处理 list pyhanlp 新词识别

大数据资讯 发表了文章:

中文自然语言处理工具HanLP源码包的下载使用记录

发布时间:2019-02-15 10:49:28 浏览:268 回帖 :0

这篇文章主要分享的是hanlp自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通。Hanlp安装包的下载以及安装其实之前就已经有过分享了。本篇文章主要还是备忘之用,同时算是给新手...

python 源码 配置 自然语言处理 demo HanLP

大数据资讯 发表了文章:

中文自然语言处理工具hanlp隐马角色标注详解

发布时间:2019-02-13 15:23:56 浏览:446 回帖 :0

本文旨在介绍如何利用HanLP训练分词模型,包括语料格式、语料预处理、训练接口、输出格式等。 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的语料加载工具,可以通过少量...

test 自然语言处理 handler HanLP

3
更多>
更多>
zz2019
zz2019
文章:0丨 粉丝:2丨 话题:0
1679809537302902
1679809537302902
文章:0丨 粉丝:0丨 话题:0
漠北孤狼
漠北孤狼
文章:0丨 粉丝:0丨 话题:0
lyb19890712
lyb19890712
文章:0丨 粉丝:0丨 话题:0
云达人先生
云达人先生
文章:0丨 粉丝:0丨 话题:0
hoon
hoon
文章:0丨 粉丝:0丨 话题:0