宋利：许多高手并未参加MSU评测-阿里云开发者社区

宋利：许多高手并未参加MSU评测

2018-10-04 1619

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

640?wx_fmt=jpeg

众多本土和华人公司积极的参与MSU视频编码大赛，上海交通大学教授宋利接受LiveVideoStack采访时表示，华人在整个编解码领域有举足轻重的影响力。但也要看到，许多国外高手并未参与MSU评测，不能盲目乐观。本文是解读MSU评测的第二篇。

文 / 宋利

策划 / LiveVideoStack

LiveVideoStack：宋利你好，这是您第二次接受LiveVideoStack的采访，能否聊聊最近关注的技术或话题？

宋利：感谢再次采访。和大家分享一些近期关注的事情：

（1）视频编码方面，AOM阵营AV1正式发布，MPEG阵营VVC(未来的H.266)正式启动，业内又掀起Codec之战的讨论。总体来看，互联网流媒体阵营看好AV1，积极跟进布局。之前普遍诟病的AV1编码太慢的问题，经过AV1团队近期努力优化，已经显著提升；尽管依旧是VP9的50倍以上，预计到年底还能翻一倍。编码芯片领域的知名公司，索喜科技（socionext）近期发布了业内首款AV1硬编码器，在9月份的IBC上做了demo。VVC方面，参考软件VTM1.0基准确定，RD平均增益为8%，编码复杂度控制在HM（HEVC参考软件）2倍左右；专门设置了增强工具集配置——BMS，相关候选算法需通过打擂和评估后，才能加入新的VTM。目前配置上，RD增益~23%，编码复杂度是HM的9倍左右。复杂度的控制是后续新工具引入时面临的主要挑战，例如基于深度学习的后处理滤波、运动补偿参考帧技术，尽管性能提升可观，但复杂度也显著增加，能否最终进入标准尚需时日。近期另外一个大事是AVS2；随着央视超高清4K频道的开播，AVS2编解码、转码成为市场关注热点。

（2）视频传输方面，一个是流媒体阵营，DASH+CMAF/fMP4组合开始逐步落地，有望替换HLS+TS/MP4经典组合，主要卖点是降低延迟，节省CDN存储/带宽。另外一个阵营是RTC，代表是WebRTC，除了挑战RTMP推流老大的地位外，在双向互动类场景中（抓娃娃，视频会议，在线教育和远程医疗等）渐入佳境，广受业内追捧。

（3）体验评价方面，不管是运营商视频还是互联网视频服务商，比较多地提“服务体验”。我参与较多的“视频体验联盟”致力于QoE评价技术标准（目前成员超过60家，包括信通院、广科院、三大运营商、三大流媒体服务商等）。ITU，VSF等标准或联盟近年也推出这方面标准或规范，如用于视频流媒体评测的ITU-T P.1203。近期论坛上，也经常能听到相关主题报告，本年度LiveVideoStackCon大会上有多个相关技术分享，大家关注一下。

LiveVideoStack：作为面向通用场景的视频编码器的评测，您可以给MSU打多少分？还有哪些需要改进的地方？

宋利：MSU在编码器评测方面颇有年头，从H264到近年的HEVC，有较高公信力，在促进编码器性能提升方面有标杆示范作用。首先，评测针对”实际“编码器，包括商业公司产品和开源社区最佳代表（如x264,x265），目前以intel E5为软编码器实施平台，也是对齐市场上多数商用编码器的；当然也完全把基于GPU和FPGA或芯片的方案排除了。此外，测试序列较为丰富，种类覆盖不同运动、纹理特性的视频，能够较好地探测到编码器面对”通用自然“场景的表现。在失真指标上，和标准研究以PSNR为主不同，MSU评测以SSIM为主，PSNR为辅，今年也加入VMAF为额外参照。他们关注编码器在目标码率下的重建图像的视觉质量。实用编码器中码率控制是关键，这个留给各家较大的发挥余地。如果按照百分制来计的化，我可以给85分。

可以改进的方面：

（1）评测的维度可以更细。比如类似x265或者商用编码器的配置选项，把profile做成典型场景下的配置（fast/low latency, medium/default, slow/offline,...），这样更能探测出编码器在不同“编码速度-压缩能力“区间的表现，给优化编码更大的发挥空间。

（2）在客观评测基础上，加入一定主观verification。大规模主观测试不大现实，可以引入一定量的主观评测打分到最后分数。引入考虑视频时域特性（比如前后帧质量抖动）的metric，如vqeg的VQM，看看编码器在这方面的表现。

（3）测试序列选择上，根据比赛的结果，更换部分“好编“的序列；目前主要是PGC内容，后面可以考虑引入一些UGC内容（比如手机高清源）。

LiveVideoStack：如何正确的解读或使用MSU的报告？他的价值体现在哪里？

宋利：MSU报告的价值直接体现在评价方法和结果排名。完整报告要花钱购买，结果更详细，包括编码器在每个序列上表现。报告对实施细节并没有完整详细的说明，也未对结果做过多评述，这个可以理解。关注这个报告的群体大体有3类：第一类是公司产品/市场人员，他们关注结果排名。结果刚出来的时候，一波PR帖子大家也都看到了。第二类是Codec选型人员。不妨参考这个结果，把这些表现不错的厂商加入你们的竞标候选名单。当然只是个参考，需要结合各自应用场景再做评测的。第三类是Codec开发人员。大家更想了解背后的优化技术、策略、边界，knowhow。但这个很难get到，搞比赛往往是乱拳打死老师傅，实际上前面两名分数接近。从统计上看，可以认为无显著性差异，要看具体序列上的表现（比如某个特定的序列表现不好或者表现突出可能把分数拉下来或拉高）。完整报告还是有信息的，能了解到自家和友商编码器的细致表现；那份free报告嘛，MSU的广告价值更大。：）

LiveVideoStack：巧合的是，本次MSU视频编码评测中，大部分来自国内团队或华人的公司，如何看待这一现象？

宋利：首先恭喜中国军团！记得社区里面有人说过，不管是华为系，腾讯系还是金山系，都是Chinese系。华人在多媒体领域特别视频编码领域确实表现抢眼，MPEG社区也是华人为主，学术领域也是华人天下。也反应出视频领域这几年确实发展迅速，中国的ICT大厂们投入研发重兵。不过硬币的另外一面也需要引起思考，从技术角度看，是否说明华人在Codec优化方面具有绝对实力呢？我个人持谨慎态度，做编码器的朋友们都了解，法国、俄罗斯（以及日韩）在这个领域其实高手很多，一些老牌的编码器厂商并没有来打擂，具体原因不大清楚。也许正在练内功，专心打磨产品，无暇顾及。我们华人向来对比赛和排名比较关注，文化原因，从小到大都如此。搞得多了，老外都不好意思来了，比如CV领域的ImageNet，老外基本绝迹了。：）

LiveVideoStack：除了MSU的评测以外，还有哪些渠道或方法获得中立客观的视频Codec评测对比？

宋利：专门做Codec评测的机构还真不多，所以MSU才独领风骚。其实的理想测试应该大样本、双盲、随机、主观MOS打分。对于Codec测试来说，用主观打分的代价太大，MSU用SSIM也不得已。但SSIM也只能说相比其他metric，平均表现更接近MOS，但在具体序列上差异较大。在编码这个特定任务上，规模比较大的主观测试是MPEG标准收官阶段的评测和2010年VQEG组织的编码/metric评测。这些评测中，多家机构参与并做数据交叉检验，按照严格标准建议流程进行结果汇总和分析。近年来大规模的视频编码主观评测，只有Netflix搞过，并据此输出一个开源工具——VMAF时候做了。这也VMAF近期受到编码界关注的原因，因为数据比较大（过万个主观评分数据）。对VMAF的表现，大家也有争议，这次MSU没有选为主要依据可能也有考虑。

如果MSU大方一点，能公开测试数据（估计不可能），应该有不少机构愿意做一个cross check。或者按照他们同样的方式在独立实验室repeat一下，这个也比较难，估计大家没动力。BTW，我们华人军团可以考虑自己搞个编码器算法擂台，定义一套更为开放透明的评测方法，来和MSU这个竞争一下。

640?wx_fmt=jpeg