开发者社区大数据文章正文

Spark中使用HanLP分词

2018-10-31 2633

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.将HanLP的data(包含词典和模型)放到hdfs上，然后在项目配置文件hanlp.properties中配置root的路径，比如：
root=hdfs://localhost:9000/tmp/

2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口：

public static class HadoopFileIoAdapter implements IIOAdapter {

    @Override
    public InputStream open(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        return fs.open(new Path(path));
    }

    @Override
    public OutputStream create(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        OutputStream out = fs.create(new Path(path));
        return out;
    }
}

3.设置IoAdapter，创建分词器：

private static Segment segment;

static {

HanLP.Config.IOAdapter = new HadoopFileIoAdapter();
segment = new CRFSegment();

}

然后，就可以在Spark的操作中使用segment进行分词了。

文章来源于云聪的博客

文章标签：

自然语言处理

分布式计算

Spark

关键词：

apache spark hanlp分词

apache spark hanlp

蓝天白芸朵

大数据资讯

自然语言处理分布式计算 Java

Spark中分布式使用HanLP（1.7.0)分词示例

HanLP分词，如README中所说，如果没有特殊需求，可以通过maven配置，如果要添加自定义词典，需要下载“依赖jar包和用户字典".分享某大神的示例经验:是直接"java xf hanlp-1.6.8-sources.jar" 解压源码，把源码加入工程（依赖本地jar包，有些麻烦，有时候到服务器有找不到jar包的情况)按照文档操作，在Spark中分词，默认找的是本地目录，所以如果是在driver中分词是没有问题的。

大数据资讯

989 0 0

大数据资讯

自然语言处理分布式计算 Spark

spark集群使用hanlp进行分布式分词操作说明

本篇分享一个使用hanlp分词的操作小案例，即在spark集群中使用hanlp完成分布式分词的操作，文章整理自【qq_33872191】的博客，感谢分享！以下为全文：分两步：第一步：实现hankcs.

大数据资讯

14616 0 0

大数据资讯

自然语言处理分布式计算算法

Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程

在Kmeans算法中，一个样本需要使用数值类型，所以需要把文本转为数值向量形式，这里在Spark中有两种方式。其一，是使用TF-IDF；其二，使用Word2Vec。这里暂时使用了TF-IDF算法来进行，这个算法需要提供一个numFeatures，这个值越大其效果也越好，但是相应的计算时间也越长，后面也可以通过实验验证。

大数据资讯

2382 0 0

蓝天白芸朵

自然语言处理分布式计算算法

Spark应用HanLP对中文语料进行文本挖掘--聚类

蓝天白芸朵

1735 0 0

疯狂的猿

4月前

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

161 0 0

桃李春风一杯酒

21天前

分布式计算 Hadoop 大数据

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

桃李春风一杯酒

49 1 1

程序猿～厾罗

4月前

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

73 0 0

三分钟热度的鱼

3天前

分布式计算 DataWorks 大数据

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

MaxCompute是阿里云提供的大规模离线数据处理服务，用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时，可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

三分钟热度的鱼

15 1 1

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

程序员三木

8天前

分布式计算大数据数据处理

[AIGC大数据基础] Spark 入门

程序员三木

74 0 0

jerrywangsap

3月前

分布式计算大数据 Java

Spark 大数据实战：基于 RDD 的大数据处理分析

jerrywangsap

131 0 0

Spark中使用HanLP分词

热门文章

最新文章

相关课程

相关电子书