备案控制台

开发者社区

开发者社区人工智能文章正文

语料准备

2018-09-14 1300

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 之前查找了很多资料，发现语料准备这块的方法论很有限，在我看来如果说AI是个学生，语料其实是教科书，是知识的海洋，是AI的粮食，非常重要。本文主要探讨有充分的语料基础后对语料进行预处理的办法。

之前查找了很多资料，发现语料准备这块的方法论很有限，在我看来如果说AI是个学生，语料其实是教科书，是知识的海洋，是AI的粮食，非常重要。
本文主要探讨有充分的语料基础后对语料进行预处理的办法。
1，众包打标签
2，手工规则提取
关键词特征，使用数据库进行批量标记。
实体识别后特征选取，使用分词工具根据词性来标记。
词频统计，对高频特殊词单独标记。
### Dialogflow 边标记边训练，不断校正测试效果。
Explosion.ai 的 Prodigy ，快速手工标记，后台学习，提供预判，个人觉得并不好用。
3, 专家手工打标签
推荐Excel，可以与数据库互传数据，可以指定标签词汇范围，进行快速输入。
我总觉得语料工具应该有更大的发展空间，需要做的更好！

文章标签：

数据库

自然语言处理

人工智能

ebxinxi

目录

相关文章

小Lee

|

1月前

|

机器学习/深度学习自然语言处理

机器翻译中的词性标注

机器翻译中的词性标注

小Lee

16 2 2

小Lee

|

1月前

|

机器学习/深度学习自然语言处理算法

机器翻译中的分词

机器翻译中的分词

小Lee

19 2 2

冷冻工厂

|

7月前

|

机器学习/深度学习自然语言处理算法

大型语言模型：SBERT — 句子BERT

大型语言模型：SBERT — 句子BERT

冷冻工厂

88 0 0

Echo_Wish

|

3天前

|

自然语言处理 Python

使用Python实现文本分类与情感分析模型

使用Python实现文本分类与情感分析模型

Echo_Wish

18 1 1

4as3qn2go3ure

|

8天前

|

存储机器学习/深度学习算法

用Rapidminer做文本挖掘的应用：情感分析

用Rapidminer做文本挖掘的应用：情感分析

4as3qn2go3ure

8 0 0

Nowl

|

3月前

|

机器学习/深度学习自然语言处理数据格式

训练你自己的自然语言处理深度学习模型，Bert预训练模型下游任务训练：情感二分类

训练你自己的自然语言处理深度学习模型，Bert预训练模型下游任务训练：情感二分类

Nowl

55 0 0

ModelScope运营小助手

|

9月前

|

自然语言处理搜索推荐

文本分类

ModelScope运营小助手

93 0 0

ModelScope运营小助手

|

9月前

预训练对话

预训练对话

ModelScope运营小助手

64 0 0

zxvf_lnn

|

9月前

|

数据采集

基于Bert文本分类进行行业识别

基于Bert文本分类进行行业识别

zxvf_lnn

161 0 0

vohelon

|

10月前

|

PyTorch TensorFlow 算法框架/工具

抽取GPT-3预训练模型的emb向量

抽取GPT-3预训练模型的emb向量

vohelon

158 1 1

热门文章

最新文章

疑犯追踪第一季/全集Person Of Interest迅雷下载

【直播系列之一】1篇文章看懂峰值带宽、流量、转码、连麦、截图五大直播计费方式

理解事务的4种隔离级别

阿里云网站域名备案流程全过程讲解(图文)

在服务器的raid1中安装windows server系统（踩坑记录）

如何用Vue实现简易的富文本编辑器，并支持Markdown语法

怎么才能快速提高小程序留存率！

程序员请放下浮躁的心

如何解决域中普通用户只限于10台客户机加入域的数量问题

博客园模板样式优化

未来技术纵横谈：区块链、物联网与虚拟现实的融合与创新

软件体系结构 - 缓存技术（9）缓存穿透

提升Android应用性能的实用技巧

工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断（下）

软件体系结构 - 缓存技术（8）缓存雪崩

软件体系结构 - 缓存技术（7）Redis持久化方法

Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化

软件体系结构 - 缓存技术（6）淘汰策略

基于R语言股票市场收益的统计可视化分析

软件体系结构 - 数据分片（2）一致性哈希分片

相关课程

更多

个性化语音合成模型微调

相关电子书

更多

基于视觉推理的视频理解

揭秘阿里机器翻译

机器学习中，使用Scikit-Leam简单处理文本数据

相关实验场景

更多

如何快速训练大模型

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）