张睿:OpenH264拥有产品级的鲁棒性 欢迎contribute

  1. 云栖社区>
  2. 博客>
  3. 正文

张睿:OpenH264拥有产品级的鲁棒性 欢迎contribute

livevideostack 2018-08-23 14:25:38 浏览471
展开阅读全文
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/81990187

640?wx_fmt=jpeg


张睿拥有超过20年多媒体领域研发经验,是WebEx视频会议系统的媒体架构师,同时也是OpenH264的项目负责人,她在LiveVideoStack的采访中表示,思科不仅贡献了高鲁棒性的代码,还承担了IP费用,希望能与AV1一样帮助多媒体生态健康发展。


策划 / LiveVideoStack


LiveVideoStack:张睿你好,能否向LiveVideoStack的读者介绍下自己,以及目前主要的工作以及关注的技术方向?


张睿:我目前是思科公司Cisco Systems的主任工程师(Principle Engineer)。是网讯WebEx Meeting系统的媒体架构师。我在数字信号处理和多媒体通信领域拥有20多年的研究和行业经验,在图像/视频压缩,音频/视频处理和视频会议方面拥有丰富的专业知识。


我多年来一直在主持整个会议系统的音视频解决方案。我的团队也是思科OpenH264项目的所有者。在加入思科系统之前,我还曾在索尼SONY研究实验室和一家H.264编解码器芯片设计的初创公司工作过。我在加州大学圣巴巴拉分校电子与计算机工程系获得了博士学位,并在斯坦福大学电气工程系进行过信号处理和媒体传播领域的博士后研究。


LiveVideoStack:为什么选择数字信号处理与多媒体通信这个领域呢?并且一直持续超过20年,如何保持对技术的热情和好奇心?这一领域有什么特别的魅力吗?


张睿:我是在读本科的时候就选择了这个方向的。我当时在北京邮电大学就读。最初觉得通信给人类提供了便利,拉近了人们的距离,觉得很有贡献感,成就感。然后学信号处理的时候,尤其是频谱分析,觉得很有美感。到大四的时候,选择实验室,觉得多媒体更贴近用户的直觉感受,就选择了这个方向。一路走下来,先是在读博士的时候追求理论的解释和细节的完美,享受数学变成可以听可以看的过程;再到这么多年来做越来越大规模的工程,体会整体设计对终端用户体验的重要性,很自然的就保持了热情和好奇心。对于我而言,多媒体是科学和工程带给人类的最直观的体验。其实我最大的愿望是能在教育领域通过多媒体的技术给孩子们更直观的体验,从而热爱科学,热爱世界。可惜到目前为止还没有机会在相关领域工作过。


LiveVideoStack:回顾过去20多年,多媒体技术领域发生了哪些变化,又有哪些没有变化呢?


张睿:大概因为人在此山中吧,体会到的都是渐变。


从大的方面讲,应用场景决定对技术的需求和技术的解决方案。回顾过去20多年,多媒体领域的应用越来越宽广。在消费者领域,这些年整个的音视频娱乐已经从传统的电视台和广播电台迅速转移到网络平台和自媒体,相应地技术迅速发展。在通讯方面,多媒体已经是社交媒体中重要的一部分,无所不在,不需要像以前一样购买昂贵的终端设备。


在技术层面上,一直在解决的是更好(的质量)更有效(的带宽)更快(的迭代)更广(的部署)。所以音视频编解码的基本技术和网路传输的基本技术还在沿着一个方向像更深处走。另一个方面,复杂算法的发展和底层计算能力的增强,使得信号识别分析领域在应用中开始开拓更广泛的用武之地。语音/图像/视频的识别和分析带来了大量的应用,机器学习的方法正在取代一些传统的信号处理的方法。


LiveVideoStack:你的团队负责OpenH264项目(https://github.com/cisco/openh264),相比于x264,OpenH264的名气要小一些。能否介绍下OpenH264有哪些特色?未来还有哪些功能改进或新增?


张睿:非常客观的讲,当初这个项目启动的最大原因是推动H.264在WebRTC中的应用。思科Cisco为此决定把内部产品的代码开源并且支付其中IP使用的费用。希望在推动业界使用H.264方面,从技术和费用上都提供帮助。这和Google目前推广AV1是在解决同样的问题。


技术层面上,OpenH264是出于产品代码,而产品是在视频会议应用上面,所以大多数算法和速度的优化都是以此为目标,并不代表更广泛的应用。同样因为是出于产品应用,OpenH264代码的质量和鲁棒性是很经得起考验的。思科Cisco欢迎其他公司和社区程序员根据他们的应用需求直接贡献代码,共同促进普及应用。在思科内部,我们还是集中在和视频会议应用相关的场景需求上,比如屏幕共享时的编码方案。


LiveVideoStack:搞多媒体开发需要学习大量的基础知识,而且需要在实际工作中摸爬滚打。对于学习多媒体开发,您有哪些建议?能否推荐一些多媒体开发相关的学习资料或书籍。


张睿:对我个人而言,早年在学校的基础知识很重要,会一直帮助融会贯通。后来是期刊论文,对某一个课题的深入了解有很大帮助。再后来,就是大量的国际标准的阅读。另外就是相关的论坛,能帮助解决一些实际的问题。很惭愧,最近几年并没有很系统的阅读。也许是应该停下来充电的时候了。


LiveVideoStack:如果让你来预测2018年多媒体生态圈的技术关键词,你会选哪些?你看好哪些多媒体相关的技术?


张睿:把我问倒了。不是个关键词控:-)我所在的视频会议领域相对成熟,能看到的是人工智能技术在此的更多应用。我也比较关注AV1,希望它的产业化能够足够快。


LiveVideoStack:未来5G的网络条件下,带来哪些机遇和改善?比如,网络的稳定性会提升,但随着带宽的暴增,会带来带宽/CDN成本的大幅增长。


张睿:哈哈,Cisco希望更多的网络带宽应用啊!我个人认为这还是在延续一直以来的趋势。如果现在去买个显示器,都是4K的屏幕了。内容本身容量的增大带来了对带宽的需求。我们将看到更多细分化的产品线。对现有产品,肯定是会带来质量的提高。成本上的增加,最终还是要体现在产品带来的价值上。


LiveVideoStack:说说你将在LiveVideoStackCon 2018分享的内容吧。


张睿:我将谈两个话题,都是在产品开发中得到的很实际的一些体会。一个是如何通过跨层和组件的全局优化来提高视频会议中的实时质量。另一个是利用自动化测试和产品数据化监控保障媒体质量。前者侧重在流水线的端到端设计,后者强调测试和监控在现代化的软件开发流程的重要性。


640?wx_fmt=jpeg

网友评论

登录后评论
0/500
评论
livevideostack
+ 关注