鲁班,视觉生成引擎的应用

简介:

演讲嘉宾简介:谢宣松(星瞳),谢宣松(星瞳),阿里巴巴机器智能技术实验室资深算法专家,专注于视觉生成、智能医疗、图像搜索、信息抽取等方面技术研发和落地;阿里巴巴智能设计(鲁班)的创始成员和技术负责人,医疗影像智能诊断方向负责人,图像搜索拍立淘的早期创始成员。

 

本次分享主要分为以下几个部分:

l  定义、目标和愿景

l  设计行业现状

l  使用场景

l  技术框架和生产流程

l  关键算法

l  业务进展

l  案例展示

l  鲁班(新零售UED、淘宝技术部以及达摩院MIT共创的典型案例)

l  前景展望

 

一、定义、目标和愿景

视觉生成的定义:可控视觉内容设计和生成,聚焦满足用户、场景需求的数字视觉内容制造,包括针对图像、视频及图形的增强、编辑、渲染、生成、评估等视觉内容设计与制作。用技术赋能和改革设计、广告及数娱行业。

目标:可控视觉内容设计和生成,让AI做设计,使数字内容制造变得高质、高效、普惠、低成本;

愿景:所想,即所见。

6fce6c05a12c661f7853ac837e0be1437e34ad75

视觉生成主要分成三个方向。第一,针对非结构化的图像,如图像。第二,针对结构化的图形。第三,针对序列化的视频。


dc2efb583b57965bfd27f39d1217d003762b10e2

二、设计行业现状

视觉生成较年轻。起初,基本都是通过人工方式完成。小到海报或毕业设计封面的设计这样的小需求,大到阿里巴巴中海量商家的投放渠道及效果这样的大型需求都与其相关。从业人员数量庞大,市场与广告、商家关系紧密,市场容量非常大。

从技术上说,近几年,大家常提到供给侧改革,以前的供给侧基本都是通过人或工具来形成图像、视频等,但这样有很大的局限性,包括:

l  效率低成本高

l  数据利用率低,比如去年双十一和今年双十一由于主题不同,需要全盘重做。

l  无法在线化,从提出需求到得到结果无法做到实时。

l  难以上下文相关,设计师不会结合用户的个性化需求,形成与上下文相关的结果。

而在消费端,对个性化、精准度、实时性有很高的需求。因此,在供给和需求之间还存在差距。在AI行业中,IN的多:识别、理解、搜索。OUT的少:生成、融合还限于学术圈,系统性落地工程、可商用的产品没有。

因此,“The best way to predict is to create.”。

bcd032c1e9ac096605b19c118a6a98a45343e106

三、使用场景

视觉生成引擎的使用场景大致可抽象成下图。以显式输入而言,用户可以输入标签需要的风格、色彩、构图等,或者输入一个例子,或者进行一些交互的输入。除显式输入之外还可以有隐式输入,比如人群信息、场景信息、上下文信息等。总的来说,输入可以是千变万化的,但通过规范化之后就会减少变化,使得生成过程可控,输出质量可控。

237edf5fed3747418069876ea0ac8194431312c6

对视觉生成引擎来说,它要求输入是规范化的。但在输入前,可以加入各种交互方式,如自然语言处理,语音识别等,将其转化成规范化输入。最后输出结构化信息或可视成图。

69dd324459f8ae05cf6f06b02c954a1b02ca7e38

四、技术框架和生产流程

其技术框架如下图左侧。首先对视觉内容进行结构化理解,如分类、量化、特征化。其次通过一系列学习、决策变成满足用户需求的结构化信息即数据,最后将数据转化成可视的图像或视频。这一框架依赖于大量的现有数据。其核心是一个设计内核。同时,引入效用循环,利用使用后的反馈来不断迭代和改进系统。

其生产流程分成六个步骤,如下图右侧所示。首先用户提出需求,将需求特征化转变成系统可以理解的结构化信息。其次将信息进行规划得到草图。有了粗略的草图后再将其转变成相对更精确的图,然后调整细节,最后通过数据可视化形成最终的图。当然其中还有很多的trick,以及各部分的优化。

71ae7ea2040a3e98c28e03428c74a21e680c3a13

五、关键算法

下面介绍一些关键算法。我们希望基于下图最左的耐克鞋生成最右的图。先通过规划器得到草图,再通过强化学习获得相对细致的结果,再通过对抗学习及渲染算法得到图片,再通过评估器进行评估,最后形成业务闭环,其中还会有一些基础的能力,包含更强的联合特征(非普通 CNN特征)及多维度检索算法等。

7de8d34c527f1096c50cc29d4458d2a2a5b4d53e

基本上,处理的第一步是将图片中的信息结构化,这也是与现有的识别理解技术结合最紧密的地方。其中的难点和重点包括,对图像中多目标的识别、遮挡和互包含情况如何得到分割的信息等,下图只是个简单的示例。

7c7c3813ba0d3870c525d172fce22b863a915132

有了结构化信息之后,需要对信息进行量化。可以量化成特征或量化图。量化过程中会包含很多信息,比如主题风格、布局配色、元素种类、量化空间等。有了这些信息后可以在主题、种类、风格、视觉特征大小位置上,量化成各种码,用相对有限的特征来表达无限的图。

6a7ab9a75ee02ba9bace430d2b63eeea992cb2cb

下一步是通过用户的输入,得到一个相对粗略的结果即草图。目前主要使用的是深度序列学习。从图像角度,首先选定一个点的像素颜色再选择位置,再迭代进行操作,最后形成一张图。规划器模拟的就是这个过程。本质上预测过程是一棵树,当然也可以拆成一条条路径。为了简化,可以分成几步进行,比如空间序列,视觉序列。最后形成量化特征模型,主要应用的是LSTM模型。它把设计的过程转化成基于递归、循环的过程。

63cf8d56674b641cc77bb762413a8478bfb29483

得到草图后,利用行动器将草图细化。如果将图中的每个元素看作一个Agent,那么它将有若干个可选的行动空间。

8bdecf134376d933d27d91efa2bafad437fc853c

假设一张图中有20个元素,每个元素在视觉上有多种可选的行动空间,由其组合成的可选行动空间非常庞大。我们有很多trick可以解决这一问题,比如在空间上,只允许在有限范围内进行变动,且行动方向有序,即状态有序,行动有限。

9f8c9bfe639b015e5b629dc0c53fd91da82009ba

下一步是如何衡量结果的好坏。图像的评估相对比较主观,主要可以从美学和效果两方面来评估。美学角度可以包括是否对齐、色系搭配是否合理、有无遮挡这些较低级别的判断标准,以及较高级的,比如风格是否一致,是否切合主题。从效果上,产品投放后是否会在点击率等方面实现提升。最后将多个指标形成对应权重并形成多个DeepLR联合模型。

6224b479025ee5f5d1bf935c6be51e01fb1b32da

但在衡量结果之前,需要形成像素级别可见的图。这里有以下几种构造器分类,包临摹、迁移、创造、搭配与生成。

3ff6e4d40da6ba2031dc961ebc0b5ee9286dbad1

前面介绍了,如何通过用户的需求形成可见的图。后续还需要进行投放和反馈并进行优化,形成效用外循环。这样才能使得系统效用不断得到提升,形成一个在线闭环,这也是智能设计相对设计师的一大优势。

5e584e02616f194b5ca72e4c6d484f79c14502cf

六、业务进展

下面是一些实际的例子。

28fb0116df3eb69bd9b3a29562306873446161f5

在这个系统中也加入了大量的人的信息,知识图谱。设计师在进行设计时都会存在一些共性的东西,包括在色彩、复杂度、风格、结构上的应用,这与自然语言处理有些相似,但自然语言处理方面的知识图谱已经非常成熟,而设计上的还需要不断探索打磨。

 

在影响力方面,鲁班作为业界首创的AI设计系统,成为集团双十一的一个AI协同典型案例,获得了大量的报道。在其中,运用了对抗学习,该技术是MIT018全球十大突破性技术之一。

16da4633f466d8f87a05bee634cbd6f4d812d711

七、案例展示

从多样性看,生成的图片可以是多主体、多主体、多配色和类型自适应的。

2222321208305a76953ca5c8d210becaad53c35c

同时,也可以生成多种尺寸的图片。

b3329c939a8a08449c19fe01dad7d731ccf80f44

八、前景展望

上面所说的基本都是平面设计层面的。但在视频和图形上是另一片蓝海。如果说人工做一张图片的成本比较高,而制作视频的成本则远高于图片。

cc1c8e05655954742da34190281d61da2293f19b

下图是目前的行业市场空间展示。

31fa36d6e4751be49338173b86b46eeb5dcd683e

下图是在视频中进行广告植入的案例。需要检测视频中哪个位置适合插入广告,对位置进行优化。

0fe7115ce5e8d84894f1d5de65b4c4026ee4286c


4196198d09ca6fd969a14c536a355dedcbdddf84

下图是网球赛中将阿里巴巴的品牌logo无缝投影到赛场中。

fa5e46f36611357ed7432e90f3fb3063fa8d8638

为了强调视频中的一部分,可以生成整体静止局部运动的可循环视频。

a11c1e272aab34c076c16498ceb7003bb1ae6958

在游戏领域中,现在的游戏场景需要大量的美工、设计师等。如果希望生成的结果能满足多样性,那么纯靠人工进行需要大量的成本,并且由于游戏的生命周期通常较短,因此批量高效的场景制作是一个很有前景的应用。

a4b99370c795bda25684ca995b962363c84b3846

九、结语

 

通过视觉生成引擎,我们希望能基于用户的所想,使得一切皆可生成。长远的目标就是:所想,即所见。

 

谢谢大家。

相关文章
|
9月前
|
人工智能 达摩院
社区供稿 | 达摩院多模态对话大模型猫头鹰mPLUG-Owl大升级,登顶MMBench
近日,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。
|
9月前
|
机器学习/深度学习 编解码 算法
【视觉智能开放平台】出品智能修图技术—智能转档算法
RAW转档是专业级摄影后期修图的必备环节,旨在将拍摄的RAW图转化为细节丰富,色彩准确的JPG原片,方便修图师基于转档结果进行更为个性化和精细化的美化操作。由于对效果的精准要求和流程的把控需求,目前修图师主要利用专业软件进行人工转档操作。整个过程耗时又费力,极大降低了后期修图的交付效率。为了赋能修图师,提升他们的工作效率,本文提出了一种基于数据驱动,自动转档的技术方案,以实现人工RAW转档的替代。
【视觉智能开放平台】出品智能修图技术—智能转档算法
|
10月前
|
人工智能 城市大脑 API
基于阿里云视觉智能开放平台的动漫化视频产出方案
阿里云视觉智能开放平台的现有API能力,做出一个批量化生成动漫化视频的方案。
644 2
基于阿里云视觉智能开放平台的动漫化视频产出方案
|
10月前
|
人工智能 达摩院 自然语言处理
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
|
12月前
《阿里云产品手册2022-2023 版》——城市视觉智能引擎
《阿里云产品手册2022-2023 版》——城市视觉智能引擎
|
人工智能 小程序 开发工具
有趣的微表情与AI技术
其实微表情读心术由来已久,但因为人类自身的主观因素和专注度不够,所以往往误读比较多。记得相亲节目非诚就曾经引用过,但效果变笑果,后来也就从节目消失了。
有趣的微表情与AI技术
|
机器学习/深度学习 智能设计 人工智能
阿里巴巴「鹿班」算法技术负责人星瞳:用可控视觉生成引擎完成智能设计
在阿里巴巴,有一位接触设计不过两年时间,就从零开始做了 10 亿张海报,达到阿里巴巴 P5(中级) 设计师水平的传奇「人物」。它叫「鲁班」,是阿里巴巴神秘的智能设计系统。在第七届 UCAN 用户体验设计论坛上,「鲁班」正式以「鹿班」为名加入「阿里动物园」,对外开放核心能力,首批计划邀请一百名设计师。同时面向优秀设计师推出「驯鹿计划」,邀请 ta 们训练机器,完成有自己风格的设计。论坛期间,机器之心受邀访问了鹿班智能设计系统技术负责人星瞳,在首批受邀设计师之前,一窥鹿班如何看待设计,又如何进行设计的秘密。以下为采访实录。
1359 0
阿里巴巴「鹿班」算法技术负责人星瞳:用可控视觉生成引擎完成智能设计
|
移动开发 开发框架 人工智能
在数据世界里获得视觉化思考能力,AntV 新发布三款技术产品
AntV 是蚂蚁集团的一个数据可视化项目, 是企业级数据可视化解决方案。 该项目致力于让人们在数据世界里获得视觉化思考能力。
950 0
在数据世界里获得视觉化思考能力,AntV 新发布三款技术产品
|
机器学习/深度学习 存储 数据采集
视觉感知未来,高德数据采集模型部署实践
作为DAU过亿的国民出行服务平台,高德地图每天为用户提供海量的检索、定位和导航服务,实现这些服务需要有精准的道路信息,比如电子眼位置、路况信息、交通标识位置信息等。读者是否会好奇,高德是如何感知到现实世界的道路信息,并提供这些数据给用户呢?
317 0
视觉感知未来,高德数据采集模型部署实践

热门文章

最新文章