【酷干货】优酷多模态视频内容理解和审核质控

  1. 云栖社区>
  2. 优酷技术>
  3. 博客>
  4. 正文

【酷干货】优酷多模态视频内容理解和审核质控

KB小秘书 2019-07-29 00:32:07 浏览1467
展开阅读全文

写在前面:

本文根据《优酷技术沙龙——优酷认知实验室专场》现场,阿里巴巴高级算法专家飞霏的演讲《多模态视频内容理解和审核质控》整理成文。

image.png

大家好,非常高兴有这个机会和大家一起分享近期做的一些工作。我今天主讲的内容是优酷的多模态视频内容理解和审核质控,将会围绕两个具体的项目来跟大家讨论一下当前主要的一些技术思路。

首先简单介绍一下业务概况。

image.png

多模态,是说视频内容本身呈现了多个模态,第一是图像模态,包括视频的封面图、视频帧,从帧的角度来看,视频不光是一些静态图,它还是一个有时序信息的图集。第二是文字模态,包括视频的标题,弹幕评论,以及OCR、ASR产生的一些文字信息。第三是音频模态,也包含了非常重要的信息。图像方面,会涉及到图像的分类或物体识别。文字方面,涉及NLP层面的理解。多模态方面,可以做视频、音频的理解。

主要的业务应用,一是内容的安全

网友评论

登录后评论
0/500
评论