专访微软研究院张正友：从“张氏标定法”到人机交互，20年视觉技术的探索-阿里云开发者社区

编者按：为期四天的2017杭州云栖大会（10月11日-14日）将再度在杭州云栖小镇起航，作为全球最具影响力的科技展会之一，本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。过去一个多月，云栖社区对大会嘉宾做一系列专访（关注“云栖大会”社区公众号了解更多大会信息）。本期我们采访的是ACM Fellow，IEEE Fellow，美国微软研究院首席研究员张正友，他将在云栖大会·视觉云计算生态峰会上分享Emotionally Intelligent Vision System，探讨从终端到云端的情感智能视觉系统。

张正友博士，是世界著名的计算机视觉和多媒体技术的专家，ACM Fellow，IEEE Fellow。他在立体视觉、三维重建、运动分析、图像配准、摄像机自标定等方面都有开创性的贡献。

777101e54ae2936bd8ee30cf8305477ee31ca633

张正友带领的微软研究院视觉团队在学术研究上做了大量的工作，除了在顶尖会议（比如CVPR、ICCV、ACM Multimedia、ICME）上发表了大量文章和几部专著，而且在微软很多产品里都有团队的贡献，比如Windows、Office、Xbox、Kinect、Skype for Business、Office Lens等等，这支团队在微软内部的重要性不言而喻。

故事从“张氏标定法”谈起

1998年，初到微软研究院的张正友发表了一篇名为《A Flexible New Technique for Camera Calibration》的论文，也正是这篇论文进一步奠定了他在计算机视觉领域的地位。文中提出的基于移动平面模板的相机标定方法，就是业界普遍采用的“张氏标定法”。

“张氏标定法是我1998年加入微软做的第一个项目”，张正友告诉云栖社区。

摄像机标定是三维计算机视觉的第一步，所以必须知道摄像机的参数才能从摄像机拍摄的二维图像里恢复出周围场景的三维信息。“那时标定都是用一个非常精确制造的三维标定物，比如印有特殊标志的正方体，贵且不实用，我这才发明了用二维标定板做摄像机标定。”他回忆道。

由于二维标定板的制作非常容易，一般的打印机就可以打印出来，因此这一方法得到了广泛应用。（这里有一篇短文分享了张氏标定法发明的经过，感兴趣的朋友可以看看。）

有趣的是，尽管张正友早在二十年前就发表了《A Flexible New Technique for Camera Calibration》这篇论文，但直到2006年，他本人才知道论文提到的方法被业界赋予了“张氏标定法”的名称。

“因为对人机交互感兴趣，我认为除了计算机视觉，语音识别应该必不可少，所以我在2001年至2006年转入语音识别研究团队，专注语音增强和说话人识别研究，没有去参加任何计算机视觉会议。2006年我开始带领现在的多媒体团队同时做语音和视觉，也开始重新参加计算机视觉的会议，这时我才知道我发明的标定法被称为了张氏标定法。”

“我的研究团队在近二十年的研究工作中主要围绕着用计算机视觉来理解人的形态和行为去帮助人和人之间的沟通及人和机器的交互，最初是通过几何和物理模型对人的形态和行为建模，然后加入了机器学习。”

张正友表示，从1999年开始就提出了model-based modeling方法对人脸三维建模，也就是通过采集大量的人脸三维数据通过机器学习建立参数化的三维模型.因为这个三维模型只需要很少的人脸形状和动态参数，针对某个特定人，仅需少量的数据就可以估计出这个人的各个参数，即使图像分别率低、光照条件差，算法依然拥有很好的鲁棒性。事实上，此后很多人都在采用类似的方法，包括做人体全身三维建模。

值得注意的是，在这个最初模型里形状参数和动态参数是独立的。在研究人体全身建模时，他们发现这个最初模型太粗糙。对不同形状的人，比如肌肉强壮的和不强壮的，同样的动态变化造成的形状变化可以有很大的差别，于是他们第一个提出了tensor-based body modeling，也就是将形状、动态和三维几何描述作为一个整体用张量（tensor）来描述，取得了非常好的效果。

精准表情识别VS人脸识别

张正友带领的微软研究院团队在人脸检测方面的起步可以追溯到2006年，主要侧重于实时性和人脸侧面检测的鲁棒性。微软内部用的人脸检测技术基本上都是由团队提供，甚至也可能是最早用三维传感器做手势识别和人类行为理解的研究团队之一，早于微软推出Kinect传感器。此外，团队还在沉浸式远程呈现 (immersive telepresence)方面做了大量的研究，目的是将不同地点的人进行合成，让不同时空的人感觉是在同一个时空下，进行面对面的交流。

近年来，人脸表情识别逐渐受到了业界的关注。关于人脸表情识别，有人可能想到用这个技术去测谎，这确实是一个重要的应用，还有些应用包括医学领域比如疼痛跟踪。“我个人感兴趣的还是人机交互”，要想机器和人进行自然交互，机器必须要知道交互人的表情，也就是说机器需要情商（emotion intelligence），就像人需要有足够高的情商才能和谐的融入社会。从技术角度看，它和人脸识别都属于细分类。一个人和另一个人都有很多相同的地方，比如都有眼睛鼻子嘴巴，人脸识别就要把那些相同的东西去掉，把人和人差异的特征找出来。人脸表情识别也类似，不但需要把人和人有些相同的东西去掉，也要把人和人之间的差异去掉，但要把不同人相同的表情特征保留下来，所以非常有挑战。

要实现精准的表情识别，必然会面临各方面的技术挑战。张正友表示：“我应该是世界上第一个用神经网络做表情识别的。1996年我在日本学术休假，和研究人是如何做人脸识别的认知科学家交流，利用他们采集的数据，想用机器来做人脸识别。当然那时数据量少，我只用了三层的神经网络，特征是直接用Gabor小波参数。1997年发表了一篇会议文章，1999年发表了一篇杂志文章。二十年过去了，无论数据还是算法都有很大的发展。现在我们发布在微软Cognitive Services的Emotion API产品，用的是深度学习的方法，用了16层的神经网络和两百万张图像训练出来的。”

目前，人脸表情识别还处于婴儿阶段，研究的仅是基于图像的基本表情分类。人的表情是动态的，所以需要做基于视频的表情识别。要实现精准的表情识别，可能需要跟踪人脸每块肌肉的运动，做基于FACS（Facial Action Coding System）的表情分析。人的真正感情可能在所谓的微表情上表达出来，这样就需要用高速摄像头。此外，还需要跟认知科学家紧密合作。

视觉计算和深度学习的碰撞

在两个月前结束的CVPR（IEEE国际计算机视觉与模式识别会议）上，论文数量及参会规模都提升到了一个新的高度：收到了2620篇文章，有5000人参加，相比去年的CVPR增加了40%，计算机视觉在全球范围内的关注度可见一斑。

细心的读者可能发现了一个现象，本次大会上的优秀论文中出现了不少华人的面孔。对此，作为今年CVPR的大会主席，张正友激动的表示，“看到计算机视觉蓬勃发展很为高兴，作为华人，看到大量的华裔面孔和大批的参展的中国公司，我很骄傲。”

他认为，华人对计算机视觉的发展一直发挥重要的作用，但一个新现象是越来越多的人从中国来参加国际会议，越来越多的计算机视觉技术落地中国，视觉创业公司如雨后春笋。张正友希望，中国的计算机视觉研究和应用能更上一个台阶，为中国人工智能领域在世界上占一席重要地位发挥作用。

时下，全球视觉技术的趋势愈演愈烈，其中很大的一个原因正是因为大数据深度学习发挥的作用，在中国因为人口众多和对数据使用的宽松政策，这个优势尤为明显。但是，随着时间的推移，人们对个人隐私会更加重视，优势会偏向那些拥有原始数据的公司。因此，计算机视觉作为人工智能的一环，需要和垂直产业结合落地。

深度&丰富的场景应用

虽然深度学习的文章在现在的会议中占有很大的比例，但很多人已经开始认识到，深度学习和人的学习能力仍有很大的不同。人能够举一反三，很快学习新东西；人能够在执行任务中不断学习，在挫败中成长......等等，这都是深度学习现在所缺乏的。此外，现在视觉进步比较大的大都属于感知范畴，比如是什么物体、是谁等。视觉研究需要往更高层次发展，进入认知理解阶段并拥有常识推理，这也是为什么现在开始有不少研究将视觉和语言结合去理解图像视频。

视觉技术的应用前景无论如何都不会高估，它将涉及几乎人类的所以领域，包括人们熟知的无人驾驶、安防监控、金融认证。但随着中国经济的发展，对弱势群体的关怀必将加强，比如老年人和残疾人，计算机视觉在那些场景的应用将前途无量。

张正友表示最近一直在研究如何将计算机视觉实时地大规模地有效地应用到实际场景中，本次云栖大会上，他将就此分享计算机视觉在云计算上的看法。

云栖大会报道：

专访Dan Kohn：阡陌交迭，云原生布局开源生态构建及深度应用

专访阿里云闵万里：云上逐鹿，ET大脑要做行业化、垂直化的创新运用

专访阿里云雁杨：因需求而进化，ECS云服务器追求弹性极致

安全人工智能应用之我见：时代“风口”的交叉点

专访新浪微博黄波：千人千面，机器学习赋能用户信息流消费

专访iDST NLP负责人——淘宝内容搜索、评价归纳的幕后英雄

专访阿里云易立：从实践积累到需求沉淀，容器技术必将引领主流

专访阿里云异构计算负责人：异构计算，GPU、FPGA、ASIC芯片将三分天下

专访阿里云量子技术首席科学家施尧耘：量子计算前途辉煌而任重道远