揭秘:技术和人文交织,记阿里云人工智能ET魔术秀幕后故事

简介: “每个人都贡献出了自己的全部能力。”

在昨天2016天猫双十一狂欢夜晚会上,大家是不是被阿里云人工智能机器人ET表演魔术的那一幕给惊呆了。不仅实时互动、全程实时速记,还猜出了每个人手里的牌是什么。

太厉害了,有没有!!!

不过:

这个魔术的创意是怎么来的?

从想法到拍板、再到落地,历时多久?有没有遇到什么坎,都是怎么解决的?

技术上都有哪些细节?

魔术的背后,都有哪些幕后?

云栖社区记者就以上问题,采访了魔术环节的项目PM李博(花名:傲海)。

创意来自于一个经典魔术

昨晚惊艳全场的阿里云人工智能ET表演的是一个经典魔术。

32张扑克牌以De Bruijn 序列排列,五人洗牌之后,实际上排列可能减少到32种,ET将转身观众(黑牌)记作1红牌观众记为0。进一步从32种可能性中算出最终的唯一排列。

它就是DeBruijn 序列,这个序列的原理很复杂,但效果很简单,就是从这样的序列中任意取出相邻n个数,它们的二进制排列一定不相同,这就意味着只要黑牌和红牌的排序出来,就只有一个唯一的解。

1

魔术虽然经典,但从创意到落地还是经历了非常多的困难

采访中,李博表示,从创意的排版到最终呈现,整个项目大致用了一个多月的时间,期间遇到了非常多的困难。

包括以下几个方面:

  1. 跨团队的资源调度和协调;
  2. 跟导演组的沟通以及如何快速迭代项目来应对变化;
  3. 如何对接演播当天音频、视频、导播车这些专业的直播设备,这一块困难非常大,任何一个设备的型号或者是线路出错都会造成直播事故;
  4. 直播中跟导播如何配合;
  5. 如何保持状态:整个团队在最后的彩排阶段非常疲劳,连续好多天工作到凌晨3点;
  6. 如何保证直播质量,因为是上亿人观看的直播,要有应急手段,要把所有可能发生的困难都提前做好预案。
  7. 大伙对于直播这种很专业的领域缺乏经验,现场的布线、设备的摆放、整个流程怎么走都要学习。

技术上实现难点在于场地、灯光、音效交混下的直播环境

通常这个魔术非常考验魔术师的记忆和推算能力。对ET来说,这些都不是难题。难的是整个过程中需要ET要具备高精确度、高实时性的视频识别能力,并用人类的语言和主持人沟通交流,因为直播现场环境非常复杂。

现场环境的复杂,体现在三个方面:

  1. 环境噪声的复杂性:如晚会活动现场, 有多个高功率的音响设备, 会场混响非平常办公室or家居场景可比拟的;
  2. 设备连接的复杂性:由于此次晚会涉及信号传输有7--8路, 除了音频信号还有视频信号, 各种设备之间互相干扰, 除了环境噪音之外, 还带来了大量的电流噪声干扰.
  3. 直播的特殊性:现场是对全球的实时直播,一切都是不可控的,任何情况都会出现。

“对于以上的问题, 我们做了以下应对。”阿里云iDST技术专家汪淼淼在接受采访时说,“一个是阿里云ET自身的能力,之前它已经在千差万别的场景中得到锤炼;第二个是在后台的模型算法方面, 通过带噪数据的不断学习, 使得最终模型获得了带噪数据的适应性和鲁棒性,从而提高了对于带噪信号的适应性, 当然各种场景下真实数据的反馈,也让模型不断学习&自适应, 获得了对各种复杂环境的适应性和识别效果的鲁棒性;第三个是加强对华少的适应性——通过对华少的一些历史数据的学习, 如华少主持过的节目《华少爱读书》《王牌碟中谍》等视频的学习, 使得ET更加适应华少说的话。”

阿里云人工智能ET的实力

阿里云微信公众号的一篇文章中指出,这场魔术秀背后是阿里云iDST技术团队研发的智能语音交互(Intelligent Speech Interaction)系统, 包含语音识别、语音合成、自然语言理解等技术。
 
通过学习录音资料,ET还能模仿指定个人的音色。
 
而在ET识别黑牌的过程中,应用到的就是人工智能的图像识别技术,其功能准确度达95%以上。

在观众抽取扑克牌时,ET已经完成了对5位观众的面部识别,并利用算法建立了器官轮廓定位,以便之后识别出是否有人转身。

之前ET检测出华少手上有新的物品,便触发了图像识别机制,“看出”华少手上多了一幅扑克牌。

目前,阿里云ET的人脸算法已经覆盖了人脸检测、器官轮廓定位、人像美化、性别年龄识别、1对1人脸认证和1对多人脸识别等多个方向,用机器学习的方法,包括卷积神经网络、Supervised Descent Method等,实现了高精度和高效的技术,人脸识别在LFW上识别率99.5%。
 
无论是语音识别还是图像识别,阿里云ET的底层都依赖于深度学习算法以及大规模计算能力。

一套复杂算法模型的训练往往需要千亿级别的样本数据,这就对背后的计算能力提出了很高的要求。

难忘的事:每个人都贡献出了自己的全部能力

作为整个项目的PM,傲海分享了项目过程中一些令人难忘的事。

他说,难忘的事情非常多。“直播前,品牌的同学为了跟导演组沟通台本,在现场几乎可以坐一个晚上;开发的同学凌晨三点多刚躺下,第二天早上就自发起来改各种需求;负责采购硬件的同学每天往返于各种设备市场;因为人手有限,UED同学甚至开始充当布线工程师,还到导播车帮忙监控项目的直播。”这些细节,李博都历历在目。

这位负责机器学习PAI的产品经理表示,整个团队真的是非常有勇气和战斗力,电视直播是他们从没涉及过的领域,大家可以在这么短的时间内开发整套项目,并且成功的呈现到电视机前,克服了非常非常多的问题。

“每个人都贡献出了自己的全部能力。”他最后说到。

目录
打赏
0
0
0
0
80185
分享
相关文章
推动人工智能技术和产业变革,啥是核心驱动力?生成式人工智能认证(GAI认证)揭秘答案
人工智能(AI)正以前所未有的速度重塑世界,其发展离不开领军人才与创新生态的支持。文章探讨了AI领军人才的核心特质及培养路径,强调构建产学研深度融合的创新生态,并通过教育变革与GAI认证提升全民AI素养,为技术与产业变革提供持续动力。这不仅是推动社会高质量发展的关键,也为个人与企业带来了更多机遇。
AI大模型进阶系列(01)看懂AI大模型的主流技术 | AI对普通人的本质影响是什么
本文分享了作者在AI领域的创作心得与技术见解,涵盖从获奖经历到大模型核心技术的深入解析。内容包括大模型推理过程、LLM类型、prompt工程参数配置及最佳实践,以及RAG技术和模型微调的对比分析。同时探讨了AI对社会和个人的影响,特别是在deepseek出现后带来的技术革新与应用前景。适合希望了解AI大模型技术及其实际应用的读者学习参考。
探讨 AI 驱动自适应数据采集技术
在当今互联网环境下,网页结构动态变化日益复杂,传统数据采集技术面临巨大挑战。本文探讨了基于AI算法的自适应数据采集方法,结合爬虫代理、Cookie与User-Agent设置等关键技术,应对动态页面变更。通过Python示例代码,展示如何稳定抓取目标网站数据,并分析该技术的优势、挑战及实际应用注意事项,为未来数据采集提供了新思路。
84 44
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
101 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
AI驱动的开源治理——社会综合治理智慧化系统的技术突破
通过AI识别与智能监控精准捕捉不文明行为,生成证据链并分级预警,识别精度达98%;跨部门联动平台打破信息孤岛,实现多部门高效协作,事件处置时间缩短至5分钟;多场景适配的开源架构支持景区、校园等多样化需求,灵活部署边缘计算优化性能。试点成效显著,大幅提升治理效能。
29 14
HarmonyOS Next~鸿蒙AI功能开发:Core Speech Kit与Core Vision Kit的技术解析与实践
本文深入解析鸿蒙操作系统(HarmonyOS)中的Core Speech Kit与Core Vision Kit,探讨其在AI功能开发中的核心能力与实践方法。Core Speech Kit聚焦语音交互,提供语音识别、合成等功能,支持多场景应用;Core Vision Kit专注视觉处理,涵盖人脸检测、OCR等技术。文章还分析了两者的协同应用及生态发展趋势,展望未来AI技术与鸿蒙系统结合带来的智能交互新阶段。
88 31
AI智能导诊系统开发技术解析
智能导诊系统基于人工智能、大数据和医疗信息化技术,优化患者就医流程,提升资源匹配效率。其核心功能包括智能分诊、症状自评与风险评估及就医路径规划,通过自然语言处理、医学知识图谱、多模态交互等技术实现精准服务。系统可将门诊误挂率从23%降至6%,并显著提高急危重症识别效率,为患者提供全流程导航支持。
阿里云 AI 搜索开放平台新发布:增加 QwQ 模型
阿里云 AI 搜索开放平台 新增加 QwQ 模型,将为企业和开发者带来更强大的搜索解决方案。
67 11
AI大模型进阶系列(03) prompt 工程指南 | 实战核心技术有哪些?
本文深入讲解了AI大模型中的prompt工程。文章分析了role角色(system、user、assistant)的意义,message多轮会话记忆机制,以及prompt的核心三要素(上下文背景、输入内容、输出指示)。同时介绍了多种提示优化技术,如少样本提示、CoT链式思考、prompt chaining链式提示、思维树ToT提示等,还展示了让AI生成提示词的方法,为实际应用提供了全面指导。
Java程序员在AI时代必会的技术:Spring AI
在AI时代,Java程序员需掌握Spring AI技术以提升竞争力。Spring AI是Spring框架在AI领域的延伸,支持自然语言处理、机器学习集成与自动化决策等场景。它简化开发流程,无缝集成Spring生态,并提供对多种AI服务(如OpenAI、阿里云通义千问)的支持。本文介绍Spring AI核心概念、应用场景及开发步骤,含代码示例,助你快速入门并构建智能化应用,把握AI时代的机遇。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等