揭秘：技术和人文交织，记阿里云人工智能ET魔术秀幕后故事-阿里云开发者社区

揭秘：技术和人文交织，记阿里云人工智能ET魔术秀幕后故事

2016-11-11 4903

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： “每个人都贡献出了自己的全部能力。”

在昨天2016天猫双十一狂欢夜晚会上，大家是不是被阿里云人工智能机器人ET表演魔术的那一幕给惊呆了。不仅实时互动、全程实时速记，还猜出了每个人手里的牌是什么。

太厉害了，有没有！！！

不过：

这个魔术的创意是怎么来的？

从想法到拍板、再到落地，历时多久？有没有遇到什么坎，都是怎么解决的？

技术上都有哪些细节？

魔术的背后，都有哪些幕后？

云栖社区记者就以上问题，采访了魔术环节的项目PM李博（花名：傲海）。

创意来自于一个经典魔术

昨晚惊艳全场的阿里云人工智能ET表演的是一个经典魔术。

32张扑克牌以De Bruijn 序列排列，五人洗牌之后，实际上排列可能减少到32种，ET将转身观众（黑牌）记作1红牌观众记为0。进一步从32种可能性中算出最终的唯一排列。

它就是DeBruijn 序列，这个序列的原理很复杂，但效果很简单，就是从这样的序列中任意取出相邻n个数，它们的二进制排列一定不相同，这就意味着只要黑牌和红牌的排序出来，就只有一个唯一的解。

魔术虽然经典，但从创意到落地还是经历了非常多的困难

采访中，李博表示，从创意的排版到最终呈现，整个项目大致用了一个多月的时间，期间遇到了非常多的困难。

包括以下几个方面：

跨团队的资源调度和协调；
跟导演组的沟通以及如何快速迭代项目来应对变化；
如何对接演播当天音频、视频、导播车这些专业的直播设备，这一块困难非常大，任何一个设备的型号或者是线路出错都会造成直播事故；
直播中跟导播如何配合；
如何保持状态：整个团队在最后的彩排阶段非常疲劳，连续好多天工作到凌晨3点；
如何保证直播质量，因为是上亿人观看的直播，要有应急手段，要把所有可能发生的困难都提前做好预案。
大伙对于直播这种很专业的领域缺乏经验，现场的布线、设备的摆放、整个流程怎么走都要学习。

技术上实现难点在于场地、灯光、音效交混下的直播环境

通常这个魔术非常考验魔术师的记忆和推算能力。对ET来说，这些都不是难题。难的是整个过程中需要ET要具备高精确度、高实时性的视频识别能力，并用人类的语言和主持人沟通交流，因为直播现场环境非常复杂。

现场环境的复杂，体现在三个方面：

环境噪声的复杂性：如晚会活动现场, 有多个高功率的音响设备, 会场混响非平常办公室or家居场景可比拟的；
设备连接的复杂性：由于此次晚会涉及信号传输有7--8路, 除了音频信号还有视频信号, 各种设备之间互相干扰, 除了环境噪音之外, 还带来了大量的电流噪声干扰.
直播的特殊性：现场是对全球的实时直播，一切都是不可控的，任何情况都会出现。

“对于以上的问题, 我们做了以下应对。”阿里云iDST技术专家汪淼淼在接受采访时说，“一个是阿里云ET自身的能力，之前它已经在千差万别的场景中得到锤炼；第二个是在后台的模型算法方面, 通过带噪数据的不断学习, 使得最终模型获得了带噪数据的适应性和鲁棒性，从而提高了对于带噪信号的适应性，当然各种场景下真实数据的反馈,也让模型不断学习&自适应, 获得了对各种复杂环境的适应性和识别效果的鲁棒性；第三个是加强对华少的适应性——通过对华少的一些历史数据的学习, 如华少主持过的节目《华少爱读书》《王牌碟中谍》等视频的学习, 使得ET更加适应华少说的话。”

阿里云人工智能ET的实力

阿里云微信公众号的一篇文章中指出，这场魔术秀背后是阿里云iDST技术团队研发的智能语音交互（Intelligent Speech Interaction）系统, 包含语音识别、语音合成、自然语言理解等技术。

通过学习录音资料，ET还能模仿指定个人的音色。

而在ET识别黑牌的过程中，应用到的就是人工智能的图像识别技术，其功能准确度达95%以上。

在观众抽取扑克牌时，ET已经完成了对5位观众的面部识别，并利用算法建立了器官轮廓定位，以便之后识别出是否有人转身。

之前ET检测出华少手上有新的物品，便触发了图像识别机制，“看出”华少手上多了一幅扑克牌。

目前，阿里云ET的人脸算法已经覆盖了人脸检测、器官轮廓定位、人像美化、性别年龄识别、1对1人脸认证和1对多人脸识别等多个方向，用机器学习的方法，包括卷积神经网络、Supervised Descent Method等，实现了高精度和高效的技术，人脸识别在LFW上识别率99.5%。

无论是语音识别还是图像识别，阿里云ET的底层都依赖于深度学习算法以及大规模计算能力。

一套复杂算法模型的训练往往需要千亿级别的样本数据，这就对背后的计算能力提出了很高的要求。

难忘的事：每个人都贡献出了自己的全部能力

作为整个项目的PM，傲海分享了项目过程中一些令人难忘的事。

他说，难忘的事情非常多。“直播前，品牌的同学为了跟导演组沟通台本，在现场几乎可以坐一个晚上；开发的同学凌晨三点多刚躺下，第二天早上就自发起来改各种需求；负责采购硬件的同学每天往返于各种设备市场；因为人手有限，UED同学甚至开始充当布线工程师，还到导播车帮忙监控项目的直播。”这些细节，李博都历历在目。

这位负责机器学习PAI的产品经理表示，整个团队真的是非常有勇气和战斗力，电视直播是他们从没涉及过的领域，大家可以在这么短的时间内开发整套项目，并且成功的呈现到电视机前，克服了非常非常多的问题。

“每个人都贡献出了自己的全部能力。”他最后说到。

揭秘：技术和人文交织，记阿里云人工智能ET魔术秀幕后故事

创意来自于一个经典魔术

魔术虽然经典，但从创意到落地还是经历了非常多的困难

技术上实现难点在于场地、灯光、音效交混下的直播环境

阿里云人工智能ET的实力

难忘的事：每个人都贡献出了自己的全部能力

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

揭秘：技术和人文交织，记阿里云人工智能ET魔术秀幕后故事

创意来自于一个经典魔术

魔术虽然经典，但从创意到落地还是经历了非常多的困难

技术上实现难点在于场地、灯光、音效交混下的直播环境

阿里云人工智能ET的实力

难忘的事：每个人都贡献出了自己的全部能力

热门文章

最新文章

相关课程

相关电子书

相关实验场景