重磅清单 | 当前AI领域尚未攻克的29个难题及进展评估（附百篇文献）-阿里云开发者社区

0?wx_fmt=jpeg

引言

本文列出了人工智能中的开放性问题，根据人工智能路线图研究所重点关注的“ 开放性研究问题 ”主题，简要介绍该领域的最大挑战和现有技术水平。(译者注：人工智能路线图研究所是一个旨在研究和比较由人工智能领域工作者提出的各种人工智能路线图的新机构。)

这些挑战可分为：人工智能完备（AI-complete）问题，封闭域问题，以及常识推理、学习和感觉运动能力的基本问题。（译者注：对于计算机来说最困难的问题，被非正式地称为“人工智能完备”（AI-complete）的，以此说明解决了这些计算性问题就相当于解决了人工智能的核心问题——让计算机和人类或者强人工智能一样聪明。）

可以预见的是，作为第一次对人工智能开放性问题的调研，下面的清单难免有疏漏之处。欢迎读者提供反馈。

为了促进强人工智能的发展，GoodAI（https://www.goodai.com/）正在组织强人工智能挑战赛。这个比赛旨在通过从2017年初开始的一系列里程碑挑战赛解决下面列出的一些问题。（译者注：早在1956年，人工智能的先驱们就梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。这就是我们现在所说的“强人工智能”。这个无所不能的机器，有着我们所有的感知（甚至比人更多），我们所有的理性，可以像我们一样思考。而GoodAI是一家捷克公司，他们的长期目标是开发出能够实现科学、技术、商业等领域自动认知过程的通用人工智能。）

来源，方法和相关工作

本文罗列的人工智能问题来源于以下领域的文献：

● 机器学习

● 机器感知和机器人

● 开源人工智能问题

● 人工智能系统的评估

● 测试人类水准的人工智能的实现

● 基准和竞赛

筛选本文研究问题的三个标准如下：

1. 必须与强人工智能的实现高度相关

2. 问题有封闭的范围，不接受开放式扩展

3. 可被测试

这些问题所在的范围不同但常有交集。其中一些问题可以被完全包含在其他问题中。第二个标准（封闭范围）排除了一些有趣的问题，比如学习人类的所有职业；几个这种类型的问题将列在主要问题之后。为了确保问题具有可测试性，每个问题之后都附有示例测试。

下面列出的几个网站提供了一些具有挑战性的人工智能问题：

● 常识推理问题页面 （http://commonsensereasoning.org/problem_page.html）提出了几个常识推理领域中的问题，例如“通俗心理学”（与心智理论和社会认知相关）和“物理推理”（与直观／朴素物理学相关）。

● 常识推理的Winograd架构页面 （http://commonsensereasoning.org/winograd.html）介绍了Winograd架构和其他需要理解这个世界才可以解决的代词歧义问题。（译者注：Winograd架构是一个比图灵测试更有效的方法来确定一个计算机程序是否具有展示智能的能力。它观察计算机程序是否能够利用大量的知识来正确推理出故意含混的语句。而代词消歧问题是参与挑战的计算机程序需要回答一种特殊但简易的常识问题。人类可以根据常识和上下文信息了解代词的意义，但对这人工智能系统来说这是个很大的挑战。）

● OpenAI的研究请求 （https://openai.com/requests-for-research/）展示了不同难度的机器学习问题，强调深层和强化学习。（译者注：OpenAI是微软与马斯克所创建的位于美国旧金山的人工智能研究团队。）

● AI•ON列出的开放式研究问题（http://ai-on.org/projects/）包含人工智能的应用问题和基本问题，同时强调深度学习。（译者注：AI•ON是一个致力于推进人工智能的开放社区。）

人工智能的挑战

本文剩下的部分将按下面的顺序列出人工智能领域的一些挑战：

1. 人工智能完备问题

2. 闭域问题

3. 共同推理

4. 学习

5. 感觉运动问题

0?wx_fmt=png

人工智能完备问题

人工智能完备问题包含了所有或绝大多数符合人类智力水平的强人工智能问题。这个类别中的一些问题如下所列：

1. 开放领域对话（Open-domain dialog）

2. 文本理解

3. 机器翻译

4. 人类智力和能力测试

5. 核心解析（Winograd构架）

6. 复合词理解

（1）开放领域对话

开放领域对话是指与人进行事先未知话题的讨论。这里的挑战包括语言理解、对话语法和探索世界。任务的版本包括口头和书面对话，并可扩展至多模式交互（例如姿势输入和多媒体输出）。可能成功的标准包含有用性以及执行对话贴近人类对话的能力（“ 图灵测试 ”）。（译者注：图灵测试是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验，测试某机器是否能表现出与人等价或无法区分的智能。）

测试

对话系统通常由人工进行评估。此过程已实现的事件包括：

1. Loebner奖（译者注：纽约的慈善家Hugh Loebner组织了首次正式的图灵测试。从1991年起，每年举行一次这样的竞赛，其中机器反应与人类反应最难区别的计算机将获得100000美元的奖金和一块金牌。）

2. 机器人聊天挑战（http://www.robochatchallenge.com/）（译者注：2012年起开始举办的人工智能聊天竞赛。）

（2）文本理解

文本理解是一个尚待解决的问题。尽管问题解答领域已取得了显著的进展，但当需要使用超越文本的常识或世界知识去理解时，现有的人工智能文本理解系统就会面临问题。

测试

1. McCarthy（1976）提供了一个早期文本理解的挑战问题。（shttp://www-formal.stanford.edu/jmc/mrhug/mrhug.html）

2. Brachman（2006）提出了阅读教科书和解决教科书练习的问题。

（3）机器翻译

机器翻译是人工智能完备的，因为它包括那些有关认知世界的问题（例如下面将讨论的核心解析问题）。

测试

虽然翻译质量可以使用平行的语料库进行自动评估，但最终仍需要人工来判定测试的结果。例如当代美国英语语料库（Davies，2008）包含了来自不同类型的文本样本。翻译质量可以使用以下样本进行评估：

1. 报纸文本

2. 小说

3. 口语翻译

（4）智能测试

人类智力和能力测试（http://allminds.org/）对其设计的人类利用记忆很难或不可能实现的问题很感兴趣。人类水平的人工智能性能已经被报道用于Raven的渐进矩阵（Lovett和Forbus，2017），但人工智能系统仍然缺乏一般的推理以及同时处理各种问题的能力（ Hernández-Orallo ，2016b）（http://allminds.org/）。

测试

Brachman（2006）建议使用SAT（https://en.wikipedia.org/wiki/SAT）作为人工智能的挑战问题。（译者注：SAT是美国大学入学考试。）

Coreference resolution

The overlapping problems of coreference resolution, pronoun disambiguation, and Winograd schemas require picking out the referents of pronouns or noun phrases.

Tests

1. Davis (2011) lists 144 Winograd schemas.

2. Commonsense Reasoning (2016b) lists pronoun disambiguation problems: 62 sample problems and 60 problems used in the first Winograd Schema Challenge, held at IJCAI-16.

（5）核心解析

核心解析、代词消歧和Winograd构架的重叠问题需要人工智能系统能指出代词或名词短语所指代的内容。

测试

1. Davis（2011）（http://www.cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.html）列出了144个Winograd构架。

2. Commonsense Reasoning（2016b）列出了代词消歧问题：在IJCAI -16举行的第一次Winograd构架挑战赛中使用62个样本问题和60个问题（http://www.cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html）。

Tests

1. “The meaning of noun phrases” at (Commonsense Reasoning, 2015)

（6）复合词理解

多种语言存在具有特定含义的复合词，而我们也擅于猜测新出现的复合词的意思。比如我们知道水鸟是一种生活在水面附近的鸟类，而不是由水构成的。

测试

“ 名词短语的含义 ” （http://commonsensereasoning.org/problem_page.html#nounphrases）

0?wx_fmt=png

闭域问题

闭域问题是将重要的智力因素结合起来、并通过将自己限制在一个特定的知识领域来降低难度的问题。游戏玩家代理是其中的一个例子。人工智能代理已经在围棋和最近的扑克上实现了超越人类的表现。尚待解决的问题有：

1. 从描述中学习玩棋盘、卡片和砖瓦游戏

2. 根据描述生成程序

3. 源代码理解

（7）从描述中学习玩棋盘、卡片和砖瓦游戏

与专业游戏玩家不同，人工智能系统需要从对规则的描述中学习新游戏，并且不能依赖于针对特定游戏预先设计的算法。

测试

1. 在AAAI会议上，从正式语言的描述中学习新游戏的问题已经成为人工智能的一个挑战（http://www.aaai.org/Conferences/AAAI/2013/aaai13games.php）。

2. 更具挑战性的是从自然语言描述中学习游戏; 这样的卡片和瓦片游戏的描述可从许多网站获得。

（8）根据描述生成程序

用编程语言来生成程序，例如C语言显然是实际应用中的一个兴趣点。

测试

OpenAI提出的“ Description2Code ”（https://openai.com/requests-for-research/#description2code）挑战中列出了Ethan Caballero收集5000个程序描述。

（9）理解源代码

与源代码生成相关的是源代码理解，其中人工智能系统可以解释代码的语义并检测代码中可能出现的反常或与作者意图不一致的情况。 Allamanis等人（2016）（https://arxiv.org/abs/1602.03001）报告了过程名称预测的进展。

测试

国际模糊C代码竞赛（OCCC，2016）发布了“难以理解”的代码。源代码理解可被认为是一种由人工评判的提高代码可读性的能力。

0?wx_fmt=png

常识推理

常识推理可以说是通用人工智能的核心要素。该领域主要问题如下：

1.因果推断

2.反事实推断

3.直觉物理

4.直觉心理学

（10）因果推断

因果推断需要识别并应用原因-结果之间的联系。

测试

1.“证据的可信度”(可查看Commonsense Reasoning, 2015)

2.“狼和兔子”(可查看Commonsense Reasoning, 2015)

（11）反事实推断

反事实推断被用以回答假设问题。它使用因果推断和系统中的其他模拟及推理能力，来考虑事实与现实相反的情境。（译者注：反事实推断的例子：小明有高血压，现在想要知道一种降压药对降血压有没有因果效应。如果小明吃了药，那么此时，事实是小明吃了药，结果是小明吃了药之后血压有没有下降。反事实就是，小明没有吃药，因为不是事实所以我们无法观察到没有吃药对小明有什么影响。无法观察到反事实时的结果也被称为因果推断关键问题（fundamental problem of causal inference）。）

测试

1.“残酷且不寻常的耶鲁射击问题” (可查看Commonsense Reasoning, 2015)

（12）直觉物理

对物质世界的基本理解，包括物体存继性和预测可能轨迹的能力，能帮助智能体更快的学习并做出预测。

测试

1.“物理推断”(可查看Commonsense Reasoning, 2015)

2.“把手问题”(可查看Commonsense Reasoning, 2015)

（13）直觉心理学

直觉心理学，亦称心灵理论，能够让智能体理解目标和信念，并且从其他智能体的行为中做出推断。

测试

1.“朴素心理学”(可查看Commonsense Reasoning, 2015)

0?wx_fmt=png

学习

除了在机器学习领域巨大的发展，很多和学习相关的重要问题依然尚未解决。它们包括：

1.渐进学习

2.无监督学习

3.强泛化

4.从少数样本中类别学习

5.学会学习

6.组成学习

7.不遗忘学习

8.转移学习

9.知道何时你不知道

10.经由行动学习

（14）渐进学习

人类具有终身学习越来越复杂任务的能力。人工智能体亦该如此。这个想法的不同版本在终身（https://pdfs.semanticscholar.org/ce73/094b2c1c31c73b71e596963a86aed30728d1.pdf）文献里有讨论。在GoodAI，我们采用的是长期渐进的学习对知识和技能的长期积累。它要求在下面讨论的几个技能的组合：

· 成分学习

· 学会学习

· 学习并不忘记

· 转移学习

测试

应用于家用机器人学习家务和翻屋保养的一个可能测试，包括取得工作所需的工具和材料。该测试通过两个准则来评价智能体：持续的行动，其中智能体需要自主运行，寿命之内不再重新编程；改善能力，其中智能体必须在其演化不同的时间点展示出在之前所不具有的能力。

（15）无监督学习

无监督学习被称做机器学习的下一个挑战。它是人类终身学习最关键的能力（监督学习和强化学习的信号无法提供足够数据）并和预测常识推理紧密相关（“补上缺少的部分”）。分层系统中各个组件联合学习的无监督学习是一个较为困难的问题（大神Bengio，NIPS2016 “大脑和比特”座谈会http://www.stat.ucla.edu/~akfletcher/brainsbits.html）。

测试

除了在视觉领域可能的测试，语音识别也为无监督学习提供了一展拳脚的机会。虽然现在最先进的语音识别器基本都是依靠对大语音资料库的监督学习，无监督学习需要在没有监督的情况下，探索音素，单词分割，和词汇汇编。该方向限于少量词汇下的识别进来已有所进展，见如下论文（Riccardi and Hakkani-Tur, 2003, Park and Glass, 2008, Kamper et al., 2016）。

.一个全面无监督语音识别测试可以在部分转录语音资料库进行训练（例如，TIMIT，https://catalog.ldc.upenn.edu/LDC93S1），然后学会在非常稀疏的监督下进行预测。

（16）强泛化

人类可以在看似不同却有着内在相似性的情形下转移知识和技能，在调整到一个新环境时保留技能的核心部分，该能力被如下论文（Tarlow, 2016; Gaunt et al., 2016）称作强泛化。如果我们学习怎么打扫房间，我们就知道怎么打扫其他大部分房间。

测试

1.一个通用集成机器人能够学会用一种材料构建一个玩具城堡（比如用乐高玩具），然后测试能不能也用其他材料（比如沙子，石头，木棍）建筑城堡。

2.家务机器人在一个环境中进行打扫和烹饪训练，并在高度陌生的环境下测试。

（17）从少数样本中进行类别学习

莱克和合作者们（https://staff.fnwi.uva.nl/t.e.j.mensink/zsl2016/zslpubs/lake15science.pdf）通过少数样本达到了人类级别的识别和生成文字。然而，从少数样本中学习更复杂的类别依然是个开放性问题。

测试

http://image-net.org/该数据集包含了按WordNet中不同层次语义（http://nlp.cs.swarthmore.edu/~richardw/papers/miller1995-wordnet.pdf）整理好的图像。从非常少的训练数据图像中正确地确定数据集里的各个类别，是一个从少数样本中学习的很有挑战性的测试。

（18）学会学习

学会学习，亦称元学习是技能的习得，并趋于促进未来的学习。具体考虑的情形是一个更一般更缓慢的学习过程产生了一个快速的更专门的学习过程。例如，生物进化产生了像人类这样高效的学习者。

测试

学习玩雅达利电子游戏是进来取得非常可观的成功的领域，包括了转移学习（见论文Parisotto et al., 2016）。然而，不存在任何系统能够在学习玩电子游戏中像人类一样经过一段时间的操作便可获取新游戏的玩法（见论文Lake et al., 2016）。

（19）组成学习

组成学习（见论文de Freitas, 2016; Lake et al., 2016）是一种能够重新结合原始表达来加快新知识获取的能力。它和获悉如何学习紧密相关。

测试

组成学习的测试需要验证学习者是否着实有效并且使用了组合表达。

1.一些ImageNet的类别与主要由组成成分布局所决定对象类别相对应，例如椅子和凳子，或者单轮车，自行车和三轮车。测试可以评价智能体用少量样本学习类别以及报告图中对象组成部分的能力。

2.组成学习在学习电子游戏时应该是非常有用的。学习者可以在已经掌握的游戏中进行测试，但是游戏的组成元素看起来却改变了（比如在游戏霜寒https://archive.org/details/atari_2600_frostbite_1983_activision_steve_cartwright_ax-031中长相不同的鱼）。即便没有或者很少附加的学习，学习者也应该能够玩这样的游戏。

（20）不遗忘学习

为了终身持续地学习，智能体必须能够对新的观测泛化，同时保留之前习得的知识。近来该方向的进展见论文（Kirkpatrick et al., 2016）和（Kirkpatrick et al., 2016）。内存增强神经网络的工作（见论文Graves et al., 2016）也很相关。

测试

不遗忘学习的一个测试需要序贯地呈现学习任务（较早的任务不重复），然后测试较早获取知识的保留量。也可以测试新任务下降的学习时间，来验证智能体利用了之前习得的知识。

不遗忘学习的一个很有挑战性的测试是序贯地学习识别ImageNet数据集中所有类别。

（21）转移学习

转移学习（论文Pan and Yang, 2010）是一个智能体在一个领域进行训练然后可以掌握另一个领域的能力。在文本理解领域的成果并不好，除非智能体在新的领域也进行了一些训练（Kadlec, et al., 2016）。

测试

情感分类（Blitzer, et al.，2007）提供了转移学习的可能测试平台。学习者可以在一个语料库上训练，在另一个语料库上测试，并与直接在目标域上训练的基准学习者进行比较。

电影和商业的评论是两个不相似的领域，这使得知识转移具有了挑战性。在这两个领域里的语料库分别是Rotten Tomatoes的电影评论（Pang and Lee，2005）和Yelp Challenge的数据集（Yelp，2017）。

（22）知道什么时候你不知道

虽然不确定性在不同的学习算法中有不同的建模方式，但当前的人工系统在“知道什么时候不知道”这一点上通常比不上人类。举个例子，目前最先进的用于图像识别的深度神经网络，可以对一个人类完全不认识的图像做出99.99％的信心判断（Nguyen et al., 2015）。

人类对信心估计的表现包括：

1.在归纳任务中，如程序归纳或测序完备，知道何时提供的示例不足以作出归纳（多个合理的假设可以解释它们）。

2.在语音识别中，知道某段发音可能没有被听懂。

3.在诸如检测行人的视觉任务中，知道图像的一部分可能未被可靠地识别。

测试

1.可以将语音识别器与人类基准进行比较，测量识别器给出的平均置信度与识别失败的例子的置信度的比值。

2.可以在生成的对抗样本上测试图像识别系统给出的置信度。

(23)经由行动学习

人类婴儿通过实验和观察他们自己的行为带来的影响来了解世界（Smith and Gasser，2005; Malik，2015）。这似乎适用于高水平的认知和感知。动物实验已经证实，自发运动的能力对于感知发展至关重要（Held and Hein，1963），并且近来在学习视觉感知中使用运动已经取得了一些进展（Agrawal et al.，2015）。在（Agrawal et al.，2016）中，机器人试图学习预测戳刺动作的效果。

“经由行动学习”因此包括以下几个领域：

•主动学习，其中智能体会选择出最可能有指导意义的培训示例

•开展认识论行动，即进行主要旨在收集信息的活动

•学会通过行动来感知

•经由行动学习因果关系

也许最重要的是，对于人工系统，通过实验学习世界的因果结构仍然是一个开放的问题。

测试

对于通过行动学习，自然应该考虑操纵运动的问题，其中除了智能体的行动的直接影响，次要效应也必须考虑。

学会打台球：一个没有先验知识和没有固定训练数据的智能体被允许探索一个真实或虚拟的台球桌，并应该学会打台球。

0?wx_fmt=png

感觉运动问题

目前机器人和机器感知的突出问题包括：

1.动态环境中的自主导航

2.场景分析

3.可靠的一般物体识别和发现

4.可靠的终身即时定位和建图（SLAM）

5.多感官整合

6.适应性灵巧操纵

(24)自主导航

尽管最近特斯拉（Tesla），Waymo（前Google自驾车项目）等公司在自动驾驶汽车方面取得了进展，但在高动态环境中的自主导航仍然是一个未解决的问题，因其需要充分掌握所面对对象以可靠地预测未来场景（Ess et al.，2010）。

测试

对自主导航来说，在拥挤的城市街道和住宅区的全自动驾驶仍然是一个具有挑战性的测试。

(25)场景分析

场景分析的挑战远远超出了物体识别，它包括对由多个物体形成的表面、场景3D结构、因果关系（Lake et al.，2016）和可承受性的理解。它不限于视觉，而是可以依赖于试听，触摸和其他知觉，例如电反射和回声定位（Lewicki et al.，2014; Kondo et al.，2017）。虽然已经在例如识别异常和不可能的场景（Choi et al.，2012）、预测物体动力学（Fouhey and Zitnick，2014）和发现物体功能（Yao et al.，2013）方面取得了进展，但人工智能仍远远低于同领域人类的表现。

测试

理解视觉场景中的因果结构的一些可能的挑战包括：

1.识别危险情况：可以创建合成图像的资料库，其中同样的物体被重新组合以形成“危险”和“安全”的场景，当然这些场景是由人类分类的。

2.识别物理上不可能的场景：可以创建合成资料库，以显示包含同样物体的物理上可信和不可信的场景。

3. 识别无用的对象：无用对象的图像由（Kamprani，2017）创建。

(26)物体识别

虽然物体识别近年来取得了巨大的进步（例如，Han et al.，2016），在许多问题上已经赶上或超越人类（Karpathy，2014），并可以在封闭环境中接近完美（Song et al.，2015），但是最先进的系统仍然受限于更困难的情况，如开放物体（与背景交错）、破碎的物体在动态环境中被截断和遮挡（例如，Rajaram et al，2015年）。

测试

包含在杂乱环境中，从大型，开放式和变化的类型集合里挑出的物体对于物体识别系统很有挑战性。比如：

查看厨房和冰箱内部的照片，并列出所有者可用的食材。

(27)同时定位和制图

虽然同时定位和制图（SLAM）在某些应用中被认为已经被解决，但对于随时间变化的环境中耐久的大型自动机器人，挑战仍然存在（Cadena等，2016）。

测试

一个大城市里的自动驾驶汽车，在没有预先提供详细地图的情况下,持续定位和地图在变化的环境里仍然可靠。

（28）多感官整合

多个感官的整合（Lahat，2015）非常重要，例如人类沟通（Morency，2015）和场景理解（Lewicki et al.，2014; Kondo et al.，2017）。具有多重互相重叠的感官系统似乎对于人类儿童通过在这个世界里感知和行动来教育自己是至关重要的（Smith and Gasser，2005）。

测试

在嘈杂的环境中，唇读和手势线索是必不可少的，它可以提供多感官整合的挑战。比如：

机器人调酒师：智能体需要在嘈杂的酒吧里搞明白顾客的要求。

（29）自适应灵巧操纵

当前的机器人操纵手远逊于人手的多功能性（Ciocarlie，2015）。其中的难题包括操纵可变形物体和从移动平台操作。

测试：

从洗衣机中取出衣服，将它们挂在不同的地方晾衣绳和衣架上，同时不要挡住其他人的路。

开放性问题

列表中省略了一些值得注意的问题，因为它们具有过于开放的范围：它们包含了随时间演变或可以无限扩展的任务集。因此很难确定这些问题是否已经被解决。这种类型的问题包括：

在人类大学入学并跟人类一样上课（Goertzel，2012）

自动化所有类型的人类工作（Nilsson，2005）

Puzzlehunt挑战，例如，捷克共和国的年度TMOU游戏（TMOU，2016）

原文发布时间为：2014-04-17

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

重磅清单 | 当前AI领域尚未攻克的29个难题及进展评估（附百篇文献）

（5）核心解析

测试

Tests

（6）复合词理解

测试

（7）从描述中学习玩棋盘、卡片和砖瓦游戏

测试

（8）根据描述生成程序

测试

（9）理解源代码

测试

（14）渐进学习

测试

测试

测试

测试

测试

测试

测试

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景