《中国人工智能学会通讯》——7.6 数 据

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第7章,第7.6节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

7.6 数 据

在应用以上深度学习模型的过程中,一个比较棘手的问题是随着网络变得越来越复杂,其表示能力也越来越强,其中的参数也越来越多,由此带来的问题是如果训练数据规模不够大,则很容易使模型陷入过拟合的状态。

传统利用语言学专家进行数据标注的方法需要花费大量的人力、物力、财力,存在标注代价高、规范性差等问题,很难获得大规模高质量的人工标注数据。为了解决数据获取的难题,比较直接的是利用众包的方式获取大规模的标注数据。当然,对于大公司而言,还可以利用宝贵的平台数据,如搜索引擎的日志、聊天记录等。除此之外还可以利用大规模的弱标注数据,其实生文本自身就是非常有价值的弱标注数据,借此我们已经能够训练语言模型、词或句子的分布式向量表示等。另外,我们还需要积极寻找大规模的弱标注数据,如 DeepMind曾利用新闻网站提供的人工新闻摘要数据自动生成完型填空数据[14] 、电子商务网站中用户对商品的评分数据等。

最后,受到图像处理研究的启发,我们还可以利用大规模人工自动构造数据,如可以通过对原始图像进行旋转、伸缩等操作,获取更多的训练图像,在自然语言处理中,是否也可以通过对文本进行一定的变换,从而获得大规模的训练数据?如将正规文本中的词随机替换为错误的词,从而构建语法纠错任务的训练数据等。相关的研究还处于起步阶段,相信今后会被给予更多的关注。

相关文章
|
4月前
|
人工智能 自然语言处理 语音技术
人工智能语音数据的多样性
人工智能语音数据的多样性
25 2
|
4月前
|
人工智能 算法 语音技术
人工智能语音数据
人工智能语音数据
60 5
|
4月前
|
机器学习/深度学习 传感器 人工智能
人工智能图像数据
人工智能图像数据
42 3
|
5月前
|
机器学习/深度学习 人工智能 算法
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
人工智能中数据组合采样、特征层、算法层的讲解(图文详解)
72 0
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
14天前
|
人工智能 测试技术
测试数据不再难,人工智能批量生成给你用!
本文介绍了如何利用ChatGPT生成测试数据。测试数据是验证功能和触发异常场景的关键,设计时需全面考虑等价类、边界值和正交法。实践中,先明确数据类型、格式和需求,然后向ChatGPT提供相关信息。例如,对于只能输入中国手机号的输入框,初始提示可能只包含正常手机号,但应进一步补充异常场景,如非数字、长度错误、非中国号码、特殊字符、空输入等。此外,可通过指定yaml格式来满足代码使用需求。总结来说,生成测试数据需清晰定义需求,拆分任务,并系统测试各种变化。
21 2
|
15天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI产品使用合集之如何通过机器学习PAI 的Alink实现大量数据两两计算相关性
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
15天前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
15天前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI 操作报错合集之DSSM负采样时,输入数据不同,被哈希到同一个桶里,导致生成的embedding相同如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
15天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI 操作报错合集之机器学习PAI缺失值补充报错,从odps读取数据正常 进行下一步时,补充缺失值报错如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。