阿里云AI如何助攻世界杯?视频集锦背后的技术实践

简介: 本届世界杯互联网直播的顺利进行,离不开各大云计算厂商的支持。在这其中,阿里云是当之无愧的“C位“,除了优酷外,阿里云还支撑了CNTV、CCTV5客户端,为全网70%的世界杯直播流量保驾护航。 对于世界杯这种超大观看量级、超强影响力的重要体育赛事,阿里云一直致力研究的AI技术一定不会缺席。

本届世界杯互联网直播的顺利进行,离不开各大云计算厂商的支持。在这其中,阿里云是当之无愧的“C位“,除了优酷外,阿里云还支撑了CNTV、CCTV5客户端,为全网70%的世界杯直播流量保驾护航。

对于世界杯这种超大观看量级、超强影响力的重要体育赛事,阿里云一直致力研究的AI技术一定不会缺席。

如何用AI替代传统的内容加工模式,高效地产出比赛集锦并将精彩内容快速呈现给观众呢?世界杯期间,阿里云联合阿里巴巴机器智能技术实验室,利用“视频AI+云剪辑+媒资管理”的技术,实时产生精彩集锦和球星集锦,满足球迷们的重温赛事和追星的需求,本文将揭晓技术实现过程。

从整场赛事维度产生精彩集锦

首先,要做的事情是让机器比人更懂视频。通过对过去多届世界杯的多场赛事,以及上万篇足球或世界杯相关文稿的学习,阿里云视频AI对球场、球员、比赛机制、特定行为等都有了全面的理解,所以它具备像观众一样去客观地认知和感受每一场世界杯球赛的能力。

其次,大量的标注工作也是必不可少的,包括对帧图景深、位置、事件、红黄牌、不同角色行为、禁区危险画面及球星人脸的标注,也包含对音频中关键词、音频事件等的标注。

image

最后,便是准确地提取“精彩”的内容。在这个环节,算法和工程上进行了多处创新。包括:

  1. 将视频进行多模态分析,从视频画面、音频、文字等多个维度提取关键信息,再通过融合或者相互校验,大幅度提高锁定精彩内容的准确性。
  2. 将音频的信息分析和视频行为分析结果取权重融合判断,将视频时域、空域网络权重与音频事件、ASR网络自适应累加,从而对射门、进球、犯规、精妙传球等精彩镜头准确捕获;同时,结合实时事件信息分析结果进行合理回溯或预测,完成事件提取,比如受伤、换人、过人等事件相关的回放、特写、裁判行为抓取等。
  3. 利用多维数据进行相互校验,结合事件回溯和预测技术,进行进一步的信息平滑处理,在直播过程中逐渐累积精彩集锦或球星集锦。

从球星的维度产生球星集锦

赛事精彩集锦是以比赛本身为核心,对精彩信息进行定义、提取、汇聚与展示;而球星集锦是以特定球员为核心,获取直播赛事中与球星相关的关键画面或关键事件。这一技术不仅能为视频生产方实时提供素材,也能快速呈现球星爱豆的精华镜头,让球迷们过足眼瘾。

image

简单来说,球星集锦的实现通过对世界杯场景进行深入理解和分析,从比赛视频、解说词音频、球星库及人物场记等各个维度进行识别与分析,并利用多模态融合技术,从而实现复杂场景下的集锦效果。

在视频AI处理中,通过识别视频中已注册的球星并进行人物追踪,同时做了一定程度的容错处理和补偿优化,并针对不同位置的球星微调追踪模型,最终对球星在视频中出现的时间线、幅面坐标及置信度进行综合的动态分析。

在解说词AI处理中, 则使用了世界杯场景的语音识别模型,该模型对球员名称、足球术语、解说员的语速/语气/语调等进行了额外的训练和优化,尤其是在声学模型上针对足球场景下的球场及观众噪声进行了适应性训练,使得其最终对世界杯解说词的识别准确率提升了超过10个百分点。

_2018_07_09_4_15_55

云剪辑是生成球星集锦的最后一步,它能够接收视频AI输出的最终时间线,对原始素材进行剪切合并。云剪辑可根据需要来开启并行剪辑模式,这种模式下,原始素材片段越多,剪辑倍速越高。另外,云剪辑还可接收高级剪辑参数,如在不同剪辑片段之间增加转场,在球星首次特写帧增加贴纸,增加背景音乐、片头片尾等,丰富集锦的娱乐效果。

如何瞬时产出视频集锦

对于直播体育赛事,集锦视频产出的高效性非常重要。这也是视频AI真正可以替代人力发挥其价值的依据之一。而这对于视频云的流传输、音视频编解码、直转点以及云剪辑等技术能力都是极大的挑战。

在保证实时性上,阿里视频云利用直转点技术,先碎片化进行实时多模态分析,再结合事件回溯与预估,对精彩集锦进行累积和快速调整,最终合理聚合产出优质集锦。

依靠强大的流媒体处理能力,可以保证每场比赛的精彩集锦以及所有球星集锦,在3-5分钟内生成,再由平台快速发布出去。技术经历过无数次大“舞台”的洗练,本次世界杯中,再一次完美地解决了这一问题。

可预见的未来

激情赛事已经过半,阿里云视频AI技术在本次世界杯中也成功落地,而这并不是结局,这是将视频AI应用于体育行业以及更多其他行业的开端。经历了对世界杯如此大型赛事的稳定保障,阿里视频云将更成熟、稳定地去应对赛事场景下的视频分析与处理。AI技术也将渗透到各个行业中,帮助用户有效提高视频的生产效率,让内容更快、更准、更优。

除了视频AI之外,阿里云在本次世界杯中用到的窄带高清、50帧极清、CDN智能调度等技术,也为2018年的世界杯的广大体育迷提供了更好的观看体验。阿里云目前已经是国内视频服务体量最大的云计算公司,客户涵盖社交、教育、电商、游戏等,未来也将不断致力释放技术红利,帮助越来越多的客户实现业务飞速增长,站领行业“C位”。

阿里云世界杯直播护卫队集体亮相

点击登录视频AI体验馆——视网膜

对视频云技术感兴趣的同学,也可以加入钉钉群
image

活动推荐

12月20日杭州站【云栖TechDay-音视频技术实战沙龙】,多位视频云专家现场解读短视频、直播、视频AI、视频加速技术实践,赢取阿里云公仔及代金券,点击了解活动详情及免费报名:https://yq.aliyun.com/event/678

目录
相关文章
|
15天前
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
274 0
|
15天前
|
人工智能 自然语言处理 开发者
AIGC创作活动 | 跟着UP主秋葉一起部署AI视频生成应用!
本次AI创作活动由 B 站知名 AI Up 主“秋葉aaaki”带您学习在阿里云 模型在线服务(PAI-EAS)中零代码、一键部署基于ComfyUI和Stable Video Diffusion模型的AI视频生成Web应用,快速实现文本生成视频的AI生成解决方案,帮助您完成社交平台短视频内容生成、动画制作等任务。制作上传专属GIF视频,即有机会赢取乐歌M2S台式升降桌、天猫精灵、定制保温杯等好礼!
|
26天前
|
编解码 对象存储
阿里云视频转码转码模板-配置工作流
阿里云视频转码转码模板-配置工作流
14 0
|
1月前
|
机器学习/深度学习 编解码 人工智能
麻省理工AI新研究可将马赛克变视频
【2月更文挑战第30天】麻省理工学院等机构的研究团队推出AI新技术FeatUp,可将低分辨率图像提升为高清视频,该技术在2024年ICLR会议上引起关注。FeatUp基于深度特征提取,通过多视角一致性损失恢复空间信息,提高视频清晰度。模型通用性强,适用于多种任务和现有应用。实验显示,它在图像超分辨率和端到端学习模型性能提升上超越其他方法。然而,尚存在对某些内容处理不完善和计算资源需求高的局限性。
53 2
麻省理工AI新研究可将马赛克变视频
|
1月前
|
人工智能 vr&ar
AIGC领域又有大动作了!AI视频“黑马”Morph Studio 来袭,1080P高清画质视频免费生成!
AIGC领域又有大动作了!AI视频“黑马”Morph Studio 来袭,1080P高清画质视频免费生成!
|
1月前
|
机器学习/深度学习 人工智能 编解码
哲学家解析Sora本质,AI视频离世界模拟器还有多远?
【2月更文挑战第24天】哲学家解析Sora本质,AI视频离世界模拟器还有多远?
23 2
哲学家解析Sora本质,AI视频离世界模拟器还有多远?
|
1月前
|
SQL 分布式计算 关系型数据库
阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践
本文以云厂商售后技术支持的角度,从客户的需求出发,对于阿里云EMR-Trino集群的选型,外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录,模拟客户已有的业务场景,满足客户需求的同时对过程中的问题点进行解决、记录和分析,包括但不限于Mysql、ODPS、Hive connector的配置,Hive、Delta及Hudi等不同表格式读取的兼容,aws s3、阿里云 oss协议访问异常的解决等。
|
25天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110542 46
阿里云实时计算Flink的产品化思考与实践【下】
|
29天前
|
人工智能 监控 算法
java智慧城管源码 AI视频智能分析 可直接上项目
Java智慧城管源码实现AI视频智能分析,适用于直接部署项目。系统运用互联网、大数据、云计算和AI提升城市管理水平,采用“一级监督、二级指挥、四级联动”模式。功能涵盖AI智能检测(如占道广告、垃圾处理等)、执法办案、视频分析、统计分析及队伍管理等多个模块,利用深度学习优化城市管理自动化和智能化,提供决策支持。
208 4
java智慧城管源码 AI视频智能分析 可直接上项目
|
13天前
|
人工智能 算法 测试技术
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!
【4月更文挑战第10天】KAUST和哈佛大学联合研发的MiniGPT4-Video模型在视频理解任务中打破多项纪录,成为业界关注点。这款多模态AI系统基于大型语言模型,能同时处理视觉和文本信息,提升了视频内容理解的深度。通过创新的视觉-文本混合处理,模型在MSVD、MSRVTT等基准测试中取得显著性能提升。然而,由于依赖上下文窗口,目前对较长视频处理有限制。该模型的出现推动了视频理解领域的进步,具有广阔的应用前景。
19 1
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!