宋利:许多高手并未参加MSU评测

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/82941698 ...
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/82941698

640?wx_fmt=jpeg


众多本土和华人公司积极的参与MSU视频编码大赛,上海交通大学教授宋利接受LiveVideoStack采访时表示,华人在整个编解码领域有举足轻重的影响力。但也要看到,许多国外高手并未参与MSU评测,不能盲目乐观。本文是解读MSU评测的第二篇。


文 / 宋利

策划 / LiveVideoStack


LiveVideoStack:宋利你好,这是您第二次接受LiveVideoStack的采访,能否聊聊最近关注的技术或话题?


宋利:感谢再次采访。和大家分享一些近期关注的事情:


(1)视频编码方面,AOM阵营AV1正式发布,MPEG阵营VVC(未来的H.266)正式启动,业内又掀起Codec之战的讨论。总体来看,互联网流媒体阵营看好AV1,积极跟进布局。之前普遍诟病的AV1编码太慢的问题,经过AV1团队近期努力优化,已经显著提升;尽管依旧是VP9的50倍以上,预计到年底还能翻一倍。编码芯片领域的知名公司,索喜科技(socionext)近期发布了业内首款AV1硬编码器,在9月份的IBC上做了demo。VVC方面,参考软件VTM1.0基准确定,RD平均增益为8%,编码复杂度控制在HM(HEVC参考软件)2倍左右;专门设置了增强工具集配置——BMS,相关候选算法需通过打擂和评估后,才能加入新的VTM。目前配置上,RD增益~23%,编码复杂度是HM的9倍左右。复杂度的控制是后续新工具引入时面临的主要挑战,例如基于深度学习的后处理滤波、运动补偿参考帧技术,尽管性能提升可观,但复杂度也显著增加,能否最终进入标准尚需时日。近期另外一个大事是AVS2;随着央视超高清4K频道的开播,AVS2编解码、转码成为市场关注热点。


(2)视频传输方面,一个是流媒体阵营,DASH+CMAF/fMP4组合开始逐步落地,有望替换HLS+TS/MP4经典组合,主要卖点是降低延迟,节省CDN存储/带宽。另外一个阵营是RTC,代表是WebRTC,除了挑战RTMP推流老大的地位外,在双向互动类场景中(抓娃娃,视频会议,在线教育和远程医疗等)渐入佳境,广受业内追捧。


(3)体验评价方面,不管是运营商视频还是互联网视频服务商,比较多地提“服务体验”。我参与较多的“视频体验联盟”致力于QoE评价技术标准(目前成员超过60家,包括信通院、广科院、三大运营商、三大流媒体服务商等)。ITU,VSF等标准或联盟近年也推出这方面标准或规范,如用于视频流媒体评测的ITU-T P.1203。近期论坛上,也经常能听到相关主题报告,本年度LiveVideoStackCon大会上有多个相关技术分享,大家关注一下。


LiveVideoStack:作为面向通用场景的视频编码器的评测,您可以给MSU打多少分?还有哪些需要改进的地方?


宋利:MSU在编码器评测方面颇有年头,从H264到近年的HEVC,有较高公信力,在促进编码器性能提升方面有标杆示范作用。首先,评测针对”实际“编码器,包括商业公司产品和开源社区最佳代表(如x264,x265),目前以intel E5为软编码器实施平台,也是对齐市场上多数商用编码器的;当然也完全把基于GPU和FPGA或芯片的方案排除了。此外,测试序列较为丰富,种类覆盖不同运动、纹理特性的视频,能够较好地探测到编码器面对”通用自然“场景的表现。在失真指标上,和标准研究以PSNR为主不同,MSU评测以SSIM为主,PSNR为辅,今年也加入VMAF为额外参照。他们关注编码器在目标码率下的重建图像的视觉质量。实用编码器中码率控制是关键,这个留给各家较大的发挥余地。如果按照百分制来计的化,我可以给85分。


可以改进的方面:


(1)评测的维度可以更细。比如类似x265或者商用编码器的配置选项,把profile做成典型场景下的配置(fast/low latency, medium/default, slow/offline,...),这样更能探测出编码器在不同“编码速度-压缩能力“区间的表现,给优化编码更大的发挥空间。


(2)在客观评测基础上,加入一定主观verification。大规模主观测试不大现实,可以引入一定量的主观评测打分到最后分数。引入考虑视频时域特性(比如前后帧质量抖动)的metric,如vqeg的VQM,看看编码器在这方面的表现。


(3)测试序列选择上,根据比赛的结果,更换部分“好编“的序列;目前主要是PGC内容,后面可以考虑引入一些UGC内容(比如手机高清源)。


LiveVideoStack:如何正确的解读或使用MSU的报告?他的价值体现在哪里?


宋利:MSU报告的价值直接体现在评价方法和结果排名。完整报告要花钱购买,结果更详细,包括编码器在每个序列上表现。报告对实施细节并没有完整详细的说明,也未对结果做过多评述,这个可以理解。关注这个报告的群体大体有3类:第一类是公司产品/市场人员,他们关注结果排名。结果刚出来的时候,一波PR帖子大家也都看到了。第二类是Codec选型人员。不妨参考这个结果,把这些表现不错的厂商加入你们的竞标候选名单。当然只是个参考,需要结合各自应用场景再做评测的。第三类是Codec开发人员。大家更想了解背后的优化技术、策略、边界,knowhow。但这个很难get到,搞比赛往往是乱拳打死老师傅,实际上前面两名分数接近。从统计上看,可以认为无显著性差异,要看具体序列上的表现(比如某个特定的序列表现不好或者表现突出可能把分数拉下来或拉高)。完整报告还是有信息的,能了解到自家和友商编码器的细致表现;那份free报告嘛,MSU的广告价值更大。:)


LiveVideoStack:巧合的是,本次MSU视频编码评测中,大部分来自国内团队或华人的公司,如何看待这一现象?


宋利:首先恭喜中国军团!记得社区里面有人说过,不管是华为系,腾讯系还是金山系,都是Chinese系。华人在多媒体领域特别视频编码领域确实表现抢眼,MPEG社区也是华人为主,学术领域也是华人天下。也反应出视频领域这几年确实发展迅速,中国的ICT大厂们投入研发重兵。不过硬币的另外一面也需要引起思考,从技术角度看,是否说明华人在Codec优化方面具有绝对实力呢?我个人持谨慎态度,做编码器的朋友们都了解,法国、俄罗斯(以及日韩)在这个领域其实高手很多,一些老牌的编码器厂商并没有来打擂,具体原因不大清楚。也许正在练内功,专心打磨产品,无暇顾及。我们华人向来对比赛和排名比较关注,文化原因,从小到大都如此。搞得多了,老外都不好意思来了,比如CV领域的ImageNet,老外基本绝迹了。:)


LiveVideoStack:除了MSU的评测以外,还有哪些渠道或方法获得中立客观的视频Codec评测对比?


宋利:专门做Codec评测的机构还真不多,所以MSU才独领风骚。其实的理想测试应该大样本、双盲、随机、主观MOS打分。对于Codec测试来说,用主观打分的代价太大,MSU用SSIM也不得已。但SSIM也只能说相比其他metric,平均表现更接近MOS,但在具体序列上差异较大。在编码这个特定任务上,规模比较大的主观测试是MPEG标准收官阶段的评测和2010年VQEG组织的编码/metric评测。这些评测中,多家机构参与并做数据交叉检验,按照严格标准建议流程进行结果汇总和分析。近年来大规模的视频编码主观评测,只有Netflix搞过,并据此输出一个开源工具——VMAF时候做了。这也VMAF近期受到编码界关注的原因,因为数据比较大(过万个主观评分数据)。对VMAF的表现,大家也有争议,这次MSU没有选为主要依据可能也有考虑。


如果MSU大方一点,能公开测试数据(估计不可能),应该有不少机构愿意做一个cross check。或者按照他们同样的方式在独立实验室repeat一下,这个也比较难,估计大家没动力。BTW,我们华人军团可以考虑自己搞个编码器算法擂台,定义一套更为开放透明的评测方法,来和MSU这个竞争一下。



640?wx_fmt=jpeg

相关文章
|
1月前
|
人工智能 搜索推荐 量子技术
Claude 3用2小时破解博士一年实验成果
【2月更文挑战第17天】Claude 3用2小时破解博士一年实验成果
36 1
Claude 3用2小时破解博士一年实验成果
|
6月前
|
程序员 数据安全/隐私保护 开发者
《开发者评测》之中文竞技场大模型评测获奖名单
中文竞技场大模型评测自2023年8月15日启动以来,收到了100+开发者的投稿,经审核,现公布一二三等奖及争优奖获奖名单!
1323 12
《开发者评测》之中文竞技场大模型评测获奖名单
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
牛刀小试:我用自创的测试集参加了阿里中文竞技场双模型评测
8月我自己创建了一个包含320个问题的大语言模型测试集,刚好阿里魔搭社区正在举办中文模型评测活动,本着对这些模型效果的好奇,刚好手里也有“验丹指南”,所以就抽时间来玩一把模型测试。
|
8月前
|
大数据 开发者 UED
精品活动 | 中文竞技场大模型评测召集令
8月,魔搭社区联合香港中文大学(深圳)、深圳市大数据研究院、阿里云开发者社区、阿里云开发者评测发布中文竞技场大模型评测活动,汇聚了包括Baichuan-13B、ChatGLM2-6B、Qwen-Chat-7B、moss-moon-003-sft、Ziya-LLaMa-13B-v1等十余款开源大模型在中文对话场域同台PK。
|
11月前
|
机器学习/深度学习 编解码 自然语言处理
冠军方案解读 | nnUNet改进提升笔记
冠军方案解读 | nnUNet改进提升笔记
310 0
|
运维 监控 安全
评测5款国内外免费远控,谁是最好用第一名?
远程控制应用不少人都有了解使用过,尤其是会常用电脑进行工作的群体,比如程序员、设计师、运维、文员等岗位。在隔离居家远程办公时,通过家里的手机、平板或电脑跨系统、跨设备操控公司所用的办公电脑,就能及时处理工作内容,不会因缺少资料素材而影响到项目进度。像我个人在家办公就常习惯用平板,连上鼠标,利用远程控制软件操纵公司的电脑,很方便~
547 0
|
人工智能 达摩院 开发者
开发者评测局第六期——ModelScope开源模型社区评测征集令
加入ModelScope开源模型社区,使用开源建模神器记录你的建模之旅
开发者评测局第六期——ModelScope开源模型社区评测征集令
|
机器学习/深度学习 人工智能 自然语言处理
担心GPT-3胡编乱造?谷歌推出全新「专家」系统:像论文一样回答问题
谷歌的研究人员发表的新论文提出了一种能够准确地回答用户提问的系统,其无需像传统搜索引擎一样展示所有的结果。
163 0
担心GPT-3胡编乱造?谷歌推出全新「专家」系统:像论文一样回答问题
|
安全 程序员 iOS开发
【有奖评测】无影云电脑评测征集令,晒出评测赢万元豪礼
免费用云上超级电脑,晒出你的评测,赢取万元礼包!
【有奖评测】无影云电脑评测征集令,晒出评测赢万元豪礼
|
机器学习/深度学习 人工智能 算法
重磅发布开源框架2.0RC版 、生物计算平台「螺旋桨」,百度飞桨交了份年终成绩单
在 12 月 20 日举行的「WAVE SUMMIT+ 2020 深度学习开发者峰会」上,飞桨平台交出了一份非常亮眼的年终成绩单。
278 0
重磅发布开源框架2.0RC版 、生物计算平台「螺旋桨」,百度飞桨交了份年终成绩单