中国人工智能学会通讯——计算机视觉:下一步是什么？-阿里云开发者社区

我讲之前先讲一点题外话，因为周曦讲的比较有意思，而且我们都是所谓的黄家军（黄教授的子弟）。我以前在柯达做了15年的R&D，虽不像周曦说的那么惨烈，但是也很惨烈。我在柯达时，当时头号敌人是富士。讲一个故事，有一段时间，柯达认识到洗印照片中自动去除红眼，有人听到富士要做了，那我们就要做，我们说要干掉80%的红眼。因为柯达是数字洗印，但是时间有限，每天处理不知道多少百万张的照片。当时大家花了很大的力气才达到精度和速度的要求。大公司之间打还好一点。你知道美国什么食品是最便宜？中餐，因为中国人打价钱战是最厉害的。

我现在想说的正题是，从研究的角度来讲计算机视觉下一步是什么问题。人工智能经过了大起大落，有第一个冬天、第二个冬天，现在大家觉得是好日子。什么是Computer Vision。Computer Vision很长时间干不了什么实事，我在Computer Vision这个领域也干了20多年了，ComputerVision开始时就是只有一个图，能把这一个图搞转了就很厉害。我在柯达时（应该是最早的几个地方），开始研究真实的图片。柯达给大家洗印照片的，所以有很多真实世界的照片。后来又开创了真实世界视频的处理，我们是第一家做真实世界视频里的行为识别。之前的工作都是找两个学生表演一下。你到真实世界数据是有很多问题的，这个事情我不用多讲，到了真实世界有各种各样的问题。

这次人工智能大会很多话已经说过了。计算机视觉就是想从图像中获取有用的信息。黄教授是计算机视觉之父，有别的一派人说David Marr是计算机视觉之父。这里随便讲几个例子，从这些图像中获取有用的信息，现在大家觉得不稀罕，可在2000年时是不可想象的，那时连人脸检测都做不好，所以我们这个领域有很大的进步。2015年时就有几项比较轰动的工作，第一项工作是汤晓鸥教授组做的工作，他们号称是第一次计算机超过了人类，这个不是人脸识别，是人脸鉴别，达到了99.5%。第二个就是ImageNet，孙剑他们用ResNet 151层，取得误差小于5%。这些东西现在大家听到更多了，可能有人有这样的想法，好像计算机视觉已经没有什么可玩的。其实像金老师说的文字识别，这个时间搞的更长，现在还有很多的问题，这些99.5%的算法拿到实战中去又是另外一回事。

计算机视觉需要考虑下一步，这次大会也有讨论，现在很火热，但是寒冬来了怎么办？不能等到寒冬来了才去想对策，狗熊怎么对付寒冬？先吃胖了就能熬过寒冬。作为一个研究者，你应该想一想，不要等到寒冬来了才想我是不是能找到工作、是不是应该转行，而是现在就应该想，下面要去干什么。Vision+X，这个X不是一个东西，是很多的东西。我在讲Vision+X之前，我先讲一下Vision有什么发展，我着重讲一下视频分析。这是我前面提到过的工作，2009年CVPR我们第一次用真实的视频进行行为检测。开始，我们花了很多精力，网站上有很多视频，但是很多是不能用的。开始有11类行为，现在已经有101类了。搞视频的都知道，开始是UCF11，现在是UCF101。另外一个工作是一年以后在CVPR2010，我们一个工作得了Best Student Paper。这个工作验证了一个观点，现在习惯监督学习在视频分析下更是一个问题，你看一个视频是什么概念，整个视频看完了才能标，这个工作量很大。当时做这件事，我不想做这个视频标定，但我需要足够的样本才能学习。我去Youtube网站，可是你要心里清楚这些用户提供的标签是不能相信的，因为搜索Youtube时是用关键字，有人为了骗点击率可以乱放一个关键字。一个例子是《星球大战》，你搜索这个关键字，很多不相干的视频都会弹出来。现在这个问题还是存在的。迁移学习从视频分析的角度那时我们就提出来了，具体的我就不讲了。

刚才提到《星球大战》，用户的标记是不可信的，我们怎么解决这个问题？当你用关键字搜索时，我知道你大概想要什么东西。这个叫做DBPedia的知识库，比如想找Tiger Woods时，跟什么有关，跟美国公开赛和英国公开赛有关，我可以去DBPedia获取一些个视觉上的表现，比如说高尔夫的场景是什么样。这时你就可以把前面从网络上搜到的有关的视觉信息，拿去和视频里的视觉信息对比、验证。我们解决计算机视觉的问题，最终是想解决认知的问题，就是描述图像视频这些东西。那我先做分类，我知道行为怎么识别，现在我引进感知互相之间的关系，就一步一步向认知过渡。

现在做video有很多的手段，你有整个video、一段video、一个frame，这是我们去年的工作。我们提了一个MultiGranularity的概念。因为有了动作识别，我们有了更好的基础，这时我们要干什么？是去做更高层的理解。这是什么过程？这就牵扯到现在计算机视觉领域或者自然语言理解领域，两边都往这个方向走，这个方向就是视觉+语言。这个工作为什么有意思？这是在AAAI/IJCAI发表的文章。假如说你有一个video，video里做了一件事情，这个人做了化学实验。化学实验，你要混合，有搅拌，它有一个过程，你先把标签做好，加入500毫升什么溶液，再把什么东西放进来。我们想达到一个什么目的？我们想知道在这一步、在video的什么地方出现，或者你看见这个video走到这一步时是在干什么。这件事不是全新的问题，很多人做类似的问题。比如分析炒菜的video，也有这个问题，你做西红柿炒鸡蛋，一般人做这个事情是做了识别的问题，很多人做西红柿炒鸡蛋，最后把西红柿认出来、鸡蛋认出来、怎么切认出来，这样再去做，这个没有什么稀罕。我们这个问题为什么难？我是想在从来不知道怎么做这件事的情况下，知道这个video是做这件事，我就能把它弄出来，把步骤和视频里的操作搞清楚。我没有训练过，所以这是个无监督学习。人工智能大部分时间是有监督学习，有监督学习是有限的。人很多时候是无监督学习，我不需要看100个西红柿炒鸡蛋的视频才能学会炒鸡蛋。当你描述时，这里面有很多的名词，看完这个描述就知道这里应该出现多少个物体；看到有很多动词，就知道这里面有多少个动作。你还知道每个步骤是这样发生的，所以它一定有一个顺序，这些是我们唯一可以有的信息。这里有一个示意图，我不知道这是什么药罐子，可能另外一边有水，我现在通过对整个视频的观察，我就能知道哪个是那个东西，你现在干什么事，这个我具体不讲。

下一个例子，这个例子是我们做Image/video Captioning。我们做的是什么事情？在我们做时，多伦多大学已经提出了attention概念，可以把注意力这个概念引入到这类的问题里。比如你看到这个图，你的注意力应该在这个物体上面。我们认为你在写一个句子时，里面的每一个词注意力是不一样的。这个注意力我不一定从这里学，我可以找一个语文课本学人怎么说话。我把这个学好以后，不管是视觉上还是语义上的注意力都放到一起。结果发现我们刷了一次榜，就刷了第一，并在第一的位子上坐了5个月。周曦说了一句有意思的话，技术领先是不可靠的。因为我们没想到呆了那么久，后来别人就赶超了。如果有周曦他们那样的精神，超过不是问题。谷歌有这么多牛人，超过也不是问题。

我们这几年还做了一个东西是情感计算。这也不是全新的东西，但这是图像情感计算。你可能觉得不新，黄教授的团队，研究过根据表情来的情感。我这里说的图像情感计算是泛泛的图像，随便拿一个图，只要能引起情感就可以推测出。我们大概是2012年开始做的。我们做这个方向，后来被别人注意到了，这是（沈向阳）微软的“政治局常委”之一。他提到了我们做的工作，我们开始是不用深度学习做的，因为没有足够的大数据。后来想了一个花招来做深度学习。其实我们也不是最早做图像情感计算的，最早是荷兰人做了一个图像情感计算。情感计算最开始时是做二值的，正能量、负能量就可以了。他们系统的精确度是51%，等于系统什么也没有干。我们用了visualattributes，达到了61%。同时哥伦比亚大学发明了SentiBank，从1 200个ANP检测器再到情感，也达到61%。注意我们只用了20来个visual attributes。要做图像情感的深度学习，因为情感很丰富，怎么也需要100万张照片，而且要有情感标定。如果用人来标，我们算了一下，需要好几万美元。怎么办？就拿这61%分类器去标定100万张图，那就可以做深度学习了吧。不要高兴太早，这个是要打折扣的，也就是每3个样本就有一个错的，而且不知道哪个是错的。先不管了，塞进去一搞就到71%。你再用71%分类器再标一遍，如果有一个方法把差劲的丢掉，好的留下来，这就是我们的想法，Progressive CNN。怎么知道这个算法有多少是对的？用算法自己的置信度。唯一的问题就是，你是用不可靠的数据训练来的，我们只能拿这个置信度作为一个概率的东西。再搞几次就到了78%。终极的目的是在社交媒体中得到应用。社交媒体中的文字是非正式文字，很短，是做不好的。我们现在用图文一起做情感识别，当然你把两个放在一起就会做的更好，这是我们第一个版本，后来有新的版本。怎么样把多模态的信息，包括视觉信息做分析。刚开始情感是二值的，正、负的。根据心理学来说有24种情感，但不是独立的情感，是3×8。这个工作的意义是什么？在我们做这个工作之前是没有足够大的数据集的。我们最后花了几千美元，保证每一种情感有几千个样本。正确率达到60%，听着不怎么样，实际也不低了。这个东西比你瞎猜好5倍。后来还没有很多文章跟进，也说明问题的难度。情感还是一个比较有意思的问题，情感计算是未来人工智能的一个方向。

我们后来的版本引进了Attention。我们现在做很多社交媒体的东西，一个是有关用户的东西；一个是有关情感的东西。有关用户的东西，最近做了一个工作。我可以把微信朋友圈里的信息全部拿下来，这是很“严重”的，因为微信是不让你拿的；但是我们有别的方法拿下来，不说了。我们把它所有的图做了聚类，我们用深度学习的分析，发现人的朋友圈分享的图，实际上可以用一个46维空间表达。我可以把每个人的兴趣爱好变成一个46维向量，这样就对这个用户了解了。现在大家爱发自拍，你是爱发室内的自拍还是室外的自拍，是跟闺蜜的自拍还是独白的自拍，都不一样。最后可以把发自拍的行为和其他的朋友圈分享的图片关联起来，这个我没有时间讲了。

最后讲一个例子，大家要注意到，我讲了半天有人觉得都不是计算机视觉。但我绝对是在讲计算机视觉。这是什么问题，这是分析时装，用淘宝的数据。我知道淘宝的数据，就知道哪一个服装很畅销。但是服装商和运营商最想知道的事情，这个为什么畅销。我可以用计算机视觉的方法，把每个服装的构成，什么颜色、什么花案、什么式样分析出来；然后和它的销售额挂钩，畅销的衣服，不畅销的衣服，你马上发现这件畅销的衣服是领口让人喜爱，还是别的特点。这样服装商就会心里有数，让零售商多进一些这样的衣服。现在大家都喜欢说落地，你要落到钱眼里了就是落地了。

我们对用户画像，不仅是知道他的性格、行为，知道他的健康状况，知道他的幸福程度，最终的目的想给用户一个立体画像。这些事情都可以做，而且很大程度上是从视觉信息得到的。我们不仅可以用这样的方法研究一个人，还可以拿这个研究社会。社会的脉搏是哪些？就是这些——公共卫生、舆情，什么流行不流行，交通怎么样，有没有人闹事。医学是一个重大的方向。医疗的图像、医疗的视频也是一个可以发展的领域。

最后，我想说社交媒体可以干什么？我们做了很多事情，研究一些不良习惯。比如在美国青少年酗酒是个问题、用毒品是一个问题、抑郁症是一个问题，这些问题实际上你观察一个人的社交媒体上的表现，都是能够读出来的。这是我们做了一系列的工作。我顺便替FACE++做一个广告，我把他的脸一拿过来就知道是老人还是年轻人，我读准了就知道他的性别，美国有种性的人，黑人、白人、亚洲人等。我们还做有关营养的，分析食品的构造，因为美国人有很多的垃圾食品，吃了垃圾食品自己变得“垃圾”（说的太严重了哈）。我们想通过食物的情况了解他吃了什么东西，对他提一些建议，这个事情正在做。

计算机视觉下一步是什么？计算机视觉的下一步，就是不要停留在计算机视觉里，而是拿计算机视觉作为一个起点，去解决AI的问题。因为计算机视觉本来就是AI一部分，而且是感知的部分，不是认知的部分。这个X是什么？可以加自然语言理解，可以加知识，人有各种知识，别的地方的知识可以拿过来。可以和文字结合，和语音也可以结合，和情绪可以结合。具体的应用，与医疗健康、社交媒体、人机交互，这都是可以结合的。

苏东坡有一句话，“也无风雨也无晴”。你最好是比人想的前一步，你管它是冬天还是春天，不是晴天还是下雨，你都知道有一个方向去努力。我就把苏东坡这句话送给大家。

（本报告根据速记整理）