备案控制台

开发者社区

开发者社区人工智能文章正文

GAN的一些很酷的应用

2019-03-24 2978

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文主要讲述了生成对抗网络GANs的发展和主要应用。

在GAN发展的最初几年里，我们取得了令人瞩目的进展。当然，现在不会是像恐怖电影里那样有邮票大小的面部照片了。2017年，Gan制作了1024×1024张能愚弄人才童子军的照片。在未来几年，我们可能会看到GAN生成的高质量视频，由此衍生的商业应用程序即将来临。作为GAN系列的一部分，我们研究了一些很酷的应用程序，希望它们能作你的GAN应用程序的灵感来源。

创建动画角色

众所周知，游戏开发和动画制作成本很高，并且雇佣了许多制作艺术家来完成相对常规的任务。但通过GAN就可以自动生成动画角色并为其上色。

_IMG_3426

使用Generative Adversarial Networks创建自动动画人物角色

发生器和鉴别器由多层卷积层、批标准化和具有跳过链接的relu组成。

_IMG_3425

姿势引导人形像生成

通过姿势的附加输入，我们可以将图像转换为不同的姿势。例如，右上角图像是基础姿势，右下角是生成的图像。

_IMG_3427

下面的优化结果列是生成的图像。

_IMG_3428

姿势引导人图像生成

该设计由二级图像发生器和鉴频器组成。生成器使用元数据（姿势）和原始图像重建图像。鉴别器使用原始图像作为CGAN设计标签输入的一部分。

_IMG_3429

姿势引导人图像生成

CycleGAN

跨域名转让将很可能成为第一批商业应用。GANs将图像从一个领域（如真实的风景）转换为另一个领域（莫奈绘画或梵高）。

_IMG_3430

例如，它可以在斑马和马之间转换图片。

_IMG_3439

Cyclegan构建了两个网络G和F来构建从一个域到另一个域以及反向的图像。它使用鉴别器d来批评生成的图像有多好。例如，G将真实图像转换为梵高风格的绘画，并且DY用于区分图像是真实的还是生成的。

域A到域B：

_IMG_3432

我们在反向域B域A中重复该过程：

_IMG_3433

PixelDTGAN

根据名人图片推荐商品已经成为时尚博客和电子商务的热门话题。Pixeldtgan的作用就是从图像中创建服装图像和样式。

_IMG_3434

_IMG_3435

_IMG_3436

超分辨率

从低分辨率创建超分辨率图像。这是GAN显示出非常令人印象深刻的结果，也是具有直接商业可能性的一个领域。

_IMG_3437

与许多GAN的设计类似，它是由多层卷积层、批标准化、高级relu和跳过连接组成。

_IMG_3438

GAN的逐步发展

Progressive GAN可能是第一个展示商业化图像质量的GAN之一。以下是由GAN创建的1024×1024名人形象。

GAN的逐步发展

它采用分而治之的策略，使训练更加可行。卷积层的一次又一次训练构建出2倍分辨率的图像。

_IMG_3440

在9个阶段中，生成1024×1024图像。

_IMG_3446

GAN的逐步发展

高分辨率图像合成

需要注意的是这并非图像分割，而是从语义图上生成图像。由于采集样本非常昂贵，我们采用生成的数据来补充培训数据集，以降低开发成本。在训练自动驾驶汽车时可以自动生成视频，而不是看到它们在附近巡航，这就为我们的生活带来了便捷。

网络设计:

_IMG_3445

_IMG_3444

文本到图像（StackGAN）

文本到图像是域转移GAN的早期应用之一。比如，我们输入一个句子就可以生成多个符合描述的图像。

_IMG_3448

文本到图像合成

另一个比较通用的实现：

_IMG_3449

生成对抗性文本到图像合成

人脸合成

不同姿态下的合成面：使用单个输入图像，我们可以在不同的视角下创建面。例如，我们可以使用它来转换更容易进行人脸识别图像。

_IMG_3450

图像修复

几十年前，修复图像一直是一个重要的课题。gan就可以用于修复图像并用创建的“内容”填充缺失的部分。

_IMG_3486

上下文编码器

学习联合分配

用面部字符P（金发，女性，微笑，戴眼镜），P（棕色，男性，微笑，没有眼镜）等不同组合创建GAN是很不现实的。维数的诅咒使得GAN的数量呈指数增长。但我们可以学习单个数据分布并将它们组合以形成不同的分布，即不同的属性组合。

_IMG_3451

DiscoGAN

DiscoGAN提供了匹配的风格：许多潜在的应用程序。DiscoGAN在没有标签或配对的情况下学习跨域关系。例如，它成功地将样式（或图案）从一个域（手提包）传输到另一个域（鞋子）。

_IMG_3452

DiscoGAN和cyclegan在网络设计中非常相似。

_IMG_3453

PIX2PIx是一种图像到图像的翻译，在跨域Gan的论文中经常被引用。例如，它可以将卫星图像转换为地图（图片左下角）。

_IMG_3478

DTN

从图片中创建表情符号。

_IMG_3476

_IMG_3474

纹理合成

_IMG_3456

图像编辑 (IcGAN)

重建或编辑具有特定属性的图像。

_IMG_3473

_IMG_3472

人脸老化(Age-cGAN)

_IMG_3459

_IMG_3458

神经照片编辑器

基于内容的图像编辑：例如，扩展发带。

_IMG_3471

神经照片编辑

细化图像

_IMG_3470

目标检测

这是用gan增强现有解决方案的一个应用程序。

_IMG_3469

图像融合

将图像混合在一起。

视频生成

创建新的视频序列。它识别出什么是背景，并为前台操作创建新的时间序列。

生成三维对象

这是用gan创建三维对象时经常引用的一篇文章。

_IMG_3461

音乐的产生

GaN可以应用于非图像领域，如作曲。

_IMG_3462

_IMG_3463

医疗（异常检测）

GAN还可以扩展到其他行业，例如医学中的肿瘤检测。

_IMG_3464

_IMG_3465

进一步阅读

本文展示了一些GAN的相关应用程序。如果你感兴趣想进一步研究GAN可以继续阅读以下文章：

第一部分：重点介绍如何应用gans解决深层次学习问题，以及为什么培训gans如此困难。
GAN-关于GAN的综合考察（上）
第二部分：GAN培训问题解决概述。
GAN-关于GAN的综合考察（下）

本系列中的所有文章：
GaN-GaN系列（从头到尾）

作者信息

Jonathan Hui

本文由阿里云云栖社区组织翻译。
文章原标题《GAN — Some cool applications of GANs》，译者：么凹，审校：Viola
文章简译，更为详细的内容，请查看原文。

文章标签：

机器学习/深度学习

编解码

计算机视觉

【方向】

目录

相关文章

热烈的马

|

4月前

|

机器学习/深度学习数据可视化 PyTorch

PyTorch实现DCGAN（生成对抗网络）生成新的假名人照片实战（附源码和数据集）

PyTorch实现DCGAN（生成对抗网络）生成新的假名人照片实战（附源码和数据集）

热烈的马

52 1 1

CVHub

|

11月前

|

机器学习/深度学习人工智能资源调度

如何用YOLOv5玩转半监督(附源码实现)

如何用YOLOv5玩转半监督(附源码实现)

CVHub

270 0 0

游客nekoul5qfopxi

|

机器学习/深度学习数据可视化算法

深度学习领域，你心目中 idea 最惊艳的论文是哪篇？

全卷积神经网络FCN：相信做物体识别检测分割的同学都非常熟悉这个工作，可以看作是开启和奠定了用FCN做实例和像素级别理解的一系列方法的先河，思想非常简单：直接端到端利用全卷积网络预测每个位置的标签。后续非常多的方法，包括Mask R-CNN、各种单阶段检测器、包括3D、video的诸多方法均或多或少受此简单想法的启发。

游客nekoul5qfopxi

123 0 0

深度学习领域，你心目中 idea 最惊艳的论文是哪篇？

老师我作业忘带了

|

机器学习/深度学习数据采集数据可视化

GAN生成漫画脸

GAN生成漫画脸

老师我作业忘带了

230 0 0

Deephub

|

机器学习/深度学习存储人工智能

使用深度学习模型创作动漫故事，比较LSTM和GPT2的文本生成方法（上）

使用深度学习模型创作动漫故事，比较LSTM和GPT2的文本生成方法

Deephub

155 0 0

使用深度学习模型创作动漫故事，比较LSTM和GPT2的文本生成方法（上）

Deephub

|

机器学习/深度学习人工智能自然语言处理

深度学习实战：tensorflow训练循环神经网络让AI创作出模仿莎士比亚风格的作品

深度学习实战：tensorflow训练循环神经网络让AI创作出模仿莎士比亚风格的作品

Deephub

129 0 0

深度学习实战：tensorflow训练循环神经网络让AI创作出模仿莎士比亚风格的作品

墨理学AI

|

机器学习/深度学习并行计算 PyTorch

给学妹换个风格，画风突变【❤️CVPR 2020 风格迁移之NICE-GAN❤️】

重用判别器进行编码：实现无监督的图像到图像翻译；

墨理学AI

322 0 0

给学妹换个风格，画风突变【❤️CVPR 2020 风格迁移之NICE-GAN❤️】

码农工程师

|

机器学习/深度学习算法 PyTorch

白话生成对抗网络 GAN，50 行代码玩转 GAN 模型！【附源码】

白话生成对抗网络 GAN，50 行代码玩转 GAN 模型！【附源码】

码农工程师

308 0 0

白话生成对抗网络 GAN，50 行代码玩转 GAN 模型！【附源码】

码农工程师

|

机器学习/深度学习算法数据挖掘

吴恩达《卷积神经网络》精炼笔记（3）-- 目标检测

吴恩达《卷积神经网络》精炼笔记（3）-- 目标检测

码农工程师

199 0 0

吴恩达《卷积神经网络》精炼笔记（3）-- 目标检测

矩池云

|

机器学习/深度学习数据可视化 TensorFlow

教你如何使用GAN为口袋妖怪上色

在本案例中，我们用神经网络来给口袋妖怪的线框图上色。

矩池云

741 0 0

热门文章

最新文章

阿里云各个地域节点测试IP（国内+海外）Ping值延迟测试（全解析）

基于Flink的实时日志分析系统实践

阿里云的SLB，植入cookie和重写cookie有什么区别？

uni-app 开源资源汇总

一文了解阿里云对象存储OSS

SQL SERVER中的OLEDB等待事件

kindle3使用技巧

sd卡无法写操作

普京顾问警告或征收科技税谷歌苹果可能受创

CIO：传统企业如何做好转型？

手动给docusaurus添加一个搜索

深入白盒测试：代码级透视与质量保证

网络安全与信息安全：防御前线的关键技术与意识

云端守卫：融合云计算与网络安全的未来之路

nginx 配置代理ip访问https的域名配置

基于Java的中国传统面食介绍网站的设计与实现(源码+lw+部署文档+讲解等)

Python搭建代理IP池实现存储IP的方法

外部中断的使用方法

基于Java的快递信息管理系统的设计与实现(源码+lw+部署文档+讲解等)

深入理解MySQL中的UPDATE JOIN语句

相关课程

更多

计算机视觉类比赛汇总

相关电子书

更多

五分钟微调“漫画风” Stable Diffusion

50行代码玩转强化学习讲义

低代码开发师（初级）实战教程

下一篇

阿里云oss简介和使用流程