DeepMind给人工智能搞了一套IQ测试题

简介: 但是,神经网络的智能到底是有推理能力,还是仅靠肤浅的统计数据?为了回答这个问题,DeepMind想了一个方法。给AI搞了一套IQ测试题。

阿基米德在泡澡的时候,发现了富力原理,也发现了如何计算王冠的体积。

这就是一种抽象推理能力。

对于智能你来说,这个能力是不可或缺的一环。对人工智能也不例外。但是,神经网络的智能到底是有推理能力,还是仅靠肤浅的统计数据?

为了回答这个问题,DeepMind想了一个方法。

给AI搞了一套IQ测试题。

例如,下面这个问题:请问右下角应该是哪个图案?

image


基于观察、推理能力,一个智能体可以推断出这个问题的答案。基于这样的理念,DeepMind构建了一个问题生成器,涉及一组抽象因素,包括渐进之类的关系,以及颜色和大小等属性。

虽然这个生成器使用了一组潜在因素,但仍然会产生大量独特的问题。

接下来,通过约束生成器可用的因子或组合,就可以创建用于训练和测试模型的不同问题集,看看模型究竟能“聪明”到什么程度。

image


image

通过实验,DeepMind发现,当模型在测试中能够正确推断出任务背后的抽象概念时,就能产生良好的性能表现——IQ测试正确率可达87%,否则的话,蒙对答案的概率只有32%。

这份研究结果表明,想得出关于泛化的普遍结论可能是无益的。

参与测试的模型,表现良好与否取决于一系列因素,而几乎在所有情况下,系统在需要推断超出其经验的输入,或处理完全不熟悉的属性时,表现不佳。

总之,这是一个很有意思的方向。

很多人在看到这个研究时,都发出了Interesting的评价~

如果你对这个研究感兴趣,详细的论文在此:

Measuring abstract reasoning in neural networks

传送门:

http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf

image


为了鼓励大家继续研究,DeepMind还开源了数据集。

传送门:

https://github.com/deepmind/abstract-reasoning-matrices

原文发布时间为:2018-07-12
本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

相关文章
|
27天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能,应该如何测试?(六)推荐系统拆解
该文介绍了推荐系统的基本概念和实现思路。推荐系统通过预处理筛选候选集合,然后利用二分类模型预测用户对内容的喜好概率,再按概率排序选择Top N内容推荐给用户。文中提供了一个使用Spark ML库的简单模型训练DEMO,涉及数据预处理、特征工程和逻辑回归模型。此外,还提及了词向量在处理文本特征中的重要性,它能捕捉词与词之间的关联性。推荐系统的实际应用远比示例复杂,但这个例子有助于理解其核心流程。
21 0
|
3月前
|
机器学习/深度学习 人工智能 安全
中国信通院联合金橙果科技等十七家单位发起人工智能大模型安全基准测试
2024年2月20日下午,AIIA“SafetyAI Bench”(人工智能大模型安全基准测试)线上研讨会成功举办。来自中国信息通信研究院(以下简称“中国信通院”)、厦门大学、北京大学、北京交通大学、360、百度、蚂蚁集团、VIVO、西门​子、小鹏汽车、马上消费、浪潮科技、海信视像、交通银行、商汤科技、邮储银行、普华永道、科大讯飞、金橙果科技、万商天勤律所、中兴通讯、博特智能、开源网安、云天励飞等单位40余位科研机构专家及企业代表参加了本次会议。
|
5月前
|
机器学习/深度学习 人工智能 算法
软件测试/人工智能|人工智能与自动化测试结合实战-探索人工智能在测试领域中的应用
软件测试/人工智能|人工智能与自动化测试结合实战-探索人工智能在测试领域中的应用
149 0
|
27天前
|
人工智能 搜索推荐 算法
人工智能,应该如何测试?(七)大模型客服系统测试
这篇文稿讨论了企业级对话机器人的知识引擎构建,强调了仅靠大模型如 GPT 是不够的,需要专业领域的知识库。知识引擎的构建涉及文档上传、解析、拆分和特征向量等步骤。文档解析是难点,因文档格式多样,需将内容自动提取。文档拆分按语义切片,以便针对性地回答用户问题。词向量用于表示词的关联性,帮助模型理解词义关系。知识引擎构建完成后,通过语义检索模型或问答模型检索答案。测试环节涵盖文档解析的准确性、问答模型的正确率及意图识别模型的性能。整个过程包含大量模型组合和手动工作,远非简单的自动化任务。
44 0
|
27天前
|
人工智能 自然语言处理 算法
人工智能,应该如何测试?(五)ASR 效果测试介绍
ASR是自动语音识别技术,将语音转化为文本,涉及多学科知识。数据收集是关键,包括特定人/非特定人、词汇量大小、发音方式、方言和情感等多种类别,高质量数据成本高。ASR流程包括数据收集、标注、输入算法得到文本输出并评估。常用评估指标有字错率(WER)、字正确率及插入/删除/替换率。数据标注需严格遵循规范,工作量大,而Levenshtein库可用于自动化效果评测。在AI领域,大部分时间投入在数据处理上。
30 0
|
27天前
|
人工智能 分布式计算 Kubernetes
人工智能,应该如何测试?(三)数据构造与性能测试篇
本文探讨了人工智能场景中的性能测试,区别于传统互联网测试,其复杂性更高。主要关注点包括两类AI产品——业务类和平台类,后者涉及AI全生命周期,测试难度更大。测试重点是模型训练的性能,特别是数据模拟。需要构造大量结构化数据,如不同规模、分布、分片和特征规模的数据,以评估算法效率。此外,还涉及模拟设备规模(如视频流)和节点规模(边缘计算),以测试在大规模负载下的系统性能。文中提到了使用工具如Spark、ffmpeg、流媒体服务器和Kubernetes(K8S)的扩展项目,如Kubemark,来模拟大规模环境。最后,文章介绍了使用Golang进行异步IO操作以构建海量小文件,优化IO性能。
49 0
|
5月前
|
人工智能 自然语言处理 测试技术
软件测试/人工智能|如何使用ChatGPT帮我们写自动化测试脚本
软件测试/人工智能|如何使用ChatGPT帮我们写自动化测试脚本
85 0
软件测试/人工智能|如何使用ChatGPT帮我们写自动化测试脚本
|
6月前
|
人工智能 测试技术
软件测试/人工智能|如何利用ChatGPT帮助我们编写测试用例
软件测试/人工智能|如何利用ChatGPT帮助我们编写测试用例
81 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
探索人工智能在软件测试中的应用与挑战
【2月更文挑战第21天】 随着技术的不断进步,人工智能(AI)已经逐渐渗透到软件测试的各个环节中,从测试用例的生成到缺陷的预测,再到自动化测试的执行。本文将深入探讨AI技术如何革新传统软件测试流程,提升测试效率和质量,并分析在集成AI技术时可能遇到的挑战及应对策略。我们还将通过实例分析,展示AI如何在提高测试覆盖率、减少人工干预以及优化资源分配方面发挥关键作用。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI Business Model】人工智能的定义 | 了解 AI 的历史 | 简单理解什么是 “图灵测试“
【AI Business Model】人工智能的定义 | 了解 AI 的历史 | 简单理解什么是 “图灵测试“
75 1