鲁班，视觉生成引擎的应用-阿里云开发者社区

鲁班，视觉生成引擎的应用

2018-04-27 4436

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

演讲嘉宾简介：谢宣松（星瞳），谢宣松（星瞳），阿里巴巴机器智能技术实验室资深算法专家，专注于视觉生成、智能医疗、图像搜索、信息抽取等方面技术研发和落地；阿里巴巴智能设计（鲁班）的创始成员和技术负责人，医疗影像智能诊断方向负责人，图像搜索拍立淘的早期创始成员。

本次分享主要分为以下几个部分：

lÂ 定义、目标和愿景

lÂ 设计行业现状

lÂ 使用场景

lÂ 技术框架和生产流程

lÂ 关键算法

lÂ 业务进展

lÂ 案例展示

lÂ 鲁班（新零售UED、淘宝技术部以及达摩院MIT共创的典型案例）

lÂ 前景展望

一、定义、目标和愿景

视觉生成的定义：可控视觉内容设计和生成，聚焦满足用户、场景需求的数字视觉内容制造，包括针对图像、视频及图形的增强、编辑、渲染、生成、评估等视觉内容设计与制作。用技术赋能和改革设计、广告及数娱行业。

目标：可控视觉内容设计和生成，让AI做设计，使数字内容制造变得高质、高效、普惠、低成本；

愿景：所想，即所见。

6fce6c05a12c661f7853ac837e0be1437e34ad75

视觉生成主要分成三个方向。第一，针对非结构化的图像，如图像。第二，针对结构化的图形。第三，针对序列化的视频。

dc2efb583b57965bfd27f39d1217d003762b10e2

二、设计行业现状

视觉生成较年轻。起初，基本都是通过人工方式完成。小到海报或毕业设计封面的设计这样的小需求，大到阿里巴巴中海量商家的投放渠道及效果这样的大型需求都与其相关。从业人员数量庞大，市场与广告、商家关系紧密，市场容量非常大。

从技术上说，近几年，大家常提到供给侧改革，以前的供给侧基本都是通过人或工具来形成图像、视频等，但这样有很大的局限性，包括：

lÂ 效率低成本高

lÂ 数据利用率低，比如去年双十一和今年双十一由于主题不同，需要全盘重做。

lÂ 无法在线化，从提出需求到得到结果无法做到实时。

lÂ 难以上下文相关，设计师不会结合用户的个性化需求，形成与上下文相关的结果。

而在消费端，对个性化、精准度、实时性有很高的需求。因此，在供给和需求之间还存在差距。在AI行业中，IN的多：识别、理解、搜索。OUT的少：生成、融合还限于学术圈，系统性落地工程、可商用的产品没有。

因此，“The best way to predict is to create.”。

bcd032c1e9ac096605b19c118a6a98a45343e106

三、使用场景

视觉生成引擎的使用场景大致可抽象成下图。以显式输入而言，用户可以输入标签需要的风格、色彩、构图等，或者输入一个例子，或者进行一些交互的输入。除显式输入之外还可以有隐式输入，比如人群信息、场景信息、上下文信息等。总的来说，输入可以是千变万化的，但通过规范化之后就会减少变化，使得生成过程可控，输出质量可控。

237edf5fed3747418069876ea0ac8194431312c6

对视觉生成引擎来说，它要求输入是规范化的。但在输入前，可以加入各种交互方式，如自然语言处理，语音识别等，将其转化成规范化输入。最后输出结构化信息或可视成图。

69dd324459f8ae05cf6f06b02c954a1b02ca7e38

四、技术框架和生产流程

其技术框架如下图左侧。首先对视觉内容进行结构化理解，如分类、量化、特征化。其次通过一系列学习、决策变成满足用户需求的结构化信息即数据，最后将数据转化成可视的图像或视频。这一框架依赖于大量的现有数据。其核心是一个设计内核。同时，引入效用循环，利用使用后的反馈来不断迭代和改进系统。

其生产流程分成六个步骤，如下图右侧所示。首先用户提出需求，将需求特征化转变成系统可以理解的结构化信息。其次将信息进行规划得到草图。有了粗略的草图后再将其转变成相对更精确的图，然后调整细节，最后通过数据可视化形成最终的图。当然其中还有很多的trick，以及各部分的优化。

71ae7ea2040a3e98c28e03428c74a21e680c3a13

五、关键算法

下面介绍一些关键算法。我们希望基于下图最左的耐克鞋生成最右的图。先通过规划器得到草图，再通过强化学习获得相对细致的结果，再通过对抗学习及渲染算法得到图片，再通过评估器进行评估，最后形成业务闭环，其中还会有一些基础的能力，包含更强的联合特征（非普通 CNN特征）及多维度检索算法等。

7de8d34c527f1096c50cc29d4458d2a2a5b4d53e

基本上，处理的第一步是将图片中的信息结构化，这也是与现有的识别理解技术结合最紧密的地方。其中的难点和重点包括，对图像中多目标的识别、遮挡和互包含情况如何得到分割的信息等，下图只是个简单的示例。

7c7c3813ba0d3870c525d172fce22b863a915132

有了结构化信息之后，需要对信息进行量化。可以量化成特征或量化图。量化过程中会包含很多信息，比如主题风格、布局配色、元素种类、量化空间等。有了这些信息后可以在主题、种类、风格、视觉特征大小位置上，量化成各种码，用相对有限的特征来表达无限的图。

6a7ab9a75ee02ba9bace430d2b63eeea992cb2cb

下一步是通过用户的输入，得到一个相对粗略的结果即草图。目前主要使用的是深度序列学习。从图像角度，首先选定一个点的像素颜色再选择位置，再迭代进行操作，最后形成一张图。规划器模拟的就是这个过程。本质上预测过程是一棵树，当然也可以拆成一条条路径。为了简化，可以分成几步进行，比如空间序列，视觉序列。最后形成量化特征模型，主要应用的是LSTM模型。它把设计的过程转化成基于递归、循环的过程。

63cf8d56674b641cc77bb762413a8478bfb29483

得到草图后，利用行动器将草图细化。如果将图中的每个元素看作一个Agent，那么它将有若干个可选的行动空间。

8bdecf134376d933d27d91efa2bafad437fc853c

假设一张图中有20个元素，每个元素在视觉上有多种可选的行动空间，由其组合成的可选行动空间非常庞大。我们有很多trick可以解决这一问题，比如在空间上，只允许在有限范围内进行变动，且行动方向有序，即状态有序，行动有限。

9f8c9bfe639b015e5b629dc0c53fd91da82009ba

下一步是如何衡量结果的好坏。图像的评估相对比较主观，主要可以从美学和效果两方面来评估。美学角度可以包括是否对齐、色系搭配是否合理、有无遮挡这些较低级别的判断标准，以及较高级的，比如风格是否一致，是否切合主题。从效果上，产品投放后是否会在点击率等方面实现提升。最后将多个指标形成对应权重并形成多个DeepLR联合模型。

6224b479025ee5f5d1bf935c6be51e01fb1b32da