备案控制台

开发者社区

开发者社区人工智能文章正文

程序员的魔法——用Masking GAN让100,000人都露出灿烂笑容

2018-03-11 1708

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

首发地址：https://yq.aliyun.com/articles/324353

64e1583235d1cc54121d5212b58b0e7203fed78a

继卷积神经网络（CNN）掀起深度学习的浪潮后，生成对抗网络（GAN）逐渐成为了计算机视觉领域的另一重点关注的神经网络。本文作者于一年前开始第一次尝试使用GAN来完成一些实验，但都会存在一个问题，那就是模型很难训练以及模型的结果不好评估。尽管存在上述的这些问题，GAN仍然在深度学习领域中占据一席之地，这是因为GAN不同于经典的机器学习任务，它能够给许多问题提供新的解决思路。

操作人脸属性（年龄、性别、表情）是一个最著名的语义处理问题。目前市面上有许多这样的应用客户端，大都能够在拍照后更改面部表情。实现这一操作的方法多种多样，但在我看来，GAN是表现最优的方法。

81efd219c499e843eb5c545ac971b19a8e110da9

上图选择的这些例子强调了一个问题——GAN也会改变无关的对象。如果你想裁剪一个图像部分，然后对部分图像进行修改后再粘贴回来，那样可能会与周围的背景无法很好地融合，此外这样操作起来也很困难。本文将针对这个问题，探讨解决方法和相关细节。

如何操作？

一种方法是训练另外一个分割模型，可以使用这个模型来生成一个分割掩码，并与生成图像块匹配（比如这篇文献）。当然，收集这样的标签是困难的，此外还必须假设应用语义变化后对象的形状不会发生改变。

另外的一种潜在方法是使用恒等损失函数约束生成器，迫使生成器减少变化。

本文尝试结合上述两种思想来设计一个实验模型，该模型具有以下特点：

使用内置分段的生成器结构；
通过分割掩码将原始图像与新的图像块混合；
整个网络的训练过程是个端到端的过程；
使用L1恒等损失约束生成器并减少改变；

aae4af211ef6ccab71a6b6001afe2306e89fb729

上图是方案框图，期待看到该模型制作出完美的掩膜。

工作情况如何？

97db4ee2dcb96c785b9f33ce3cb50c624f90628f

上图是挑选出来的一些结果样本，可以看到表现都还不错。在总的数据集中，超过80%及以上的图像表现都足够好。

此外，实验过程中还注意到了一些问题：

如果图像中一个人已经是微笑时，那么它就不需要做出任何的改变；
模型在处理一些极端的头角度时候表现较差；
模型有时候对一些不相关部分仍进行了操作；

2a3c4ef8984ebf95ce0e1993ba0efd222ed6047e

从上图可以看到，随着训练的进行，生成器能产生更多的变化。

在最初的迭代周期里，生成器会绘制出越来越逼真的图像。起初，脸部分割掩码近乎完美，但经过一段时间后，模型的结果开始产生显著变化，比如在上图中，模型改变了头发。

一些想法

对上述这种行为的直接感受是一旦生成器开始生成真实的面孔，它就迫使判别器忽略表情并集中于其他区域（微笑停止是主要特征）。

另外一种解释可能是判别器过拟合了（尽管训练集含有十万左右的图像），使用更强的正则化实验可能有助于更好地理解它。

在其它数据集（如马对斑马）上的实验表明了同样的注意力转移现象，生成器最终改变了整幅图像。

实现注意事项

本文实验中应该注意以下几点：

使用CycleGAN方式训练模型；
使用校准后的CelebA数据集；
使用PyTorch框架

使用3GB内存的GPU训练4到5天就可以重现本文实验结果（时间评估是基于GPU为GTX1080），本文项目地址：https://github.com/tgeorgy/mgan

作者信息

Georgiy Trofimov，机器学习工程师。

Linkedin: https://www.linkedin.com/in/georgtrof/

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

文章原标题《How to make 100,000 people smile?》，作者：Georgiy Trofimov，译者：海棠，审阅：。

文章为简译，更为详细的内容，请查看原文

翻译者：海棠

Wechat：269970760

weibo：Uncle_LLD

Email:duanzhch@tju.edu.cn

微信公众号：AI科技时讯

157f33dddfc596ede3681e0a2a0e7068dc288cc1

文章标签：

机器学习/深度学习

程序员

uncle_ll

目录

相关文章

jerrywangsap

|

15天前

|

机器学习/深度学习编解码算法框架/工具

浅谈生成对抗网络(GAN)的原理和使用场合

浅谈生成对抗网络(GAN)的原理和使用场合

jerrywangsap

26 7 7

浅谈生成对抗网络(GAN)的原理和使用场合

绝不原创的飞龙

|

3月前

|

机器学习/深度学习存储数据可视化

生成对抗网络项目：1~5（2）

生成对抗网络项目：1~5（2）

绝不原创的飞龙

59 0 0

绝不原创的飞龙

|

3月前

|

机器学习/深度学习数据可视化算法

生成对抗网络项目：1~5（1）

生成对抗网络项目：1~5（1）

绝不原创的飞龙

129 0 0

绝不原创的飞龙

|

3月前

|

机器学习/深度学习编解码数据可视化

生成对抗网络项目：1~5（3）

生成对抗网络项目：1~5（3）

绝不原创的飞龙

48 0 0

路人贾jia

|

8月前

|

机器学习/深度学习编解码算法

经典神经网络论文超详细解读（四）——InceptionV2-V3学习笔记（翻译＋精读＋代码复现）

经典神经网络论文超详细解读（四）——InceptionV2-V3学习笔记（翻译＋精读＋代码复现）

路人贾jia

80 0 0

经典神经网络论文超详细解读（四）——InceptionV2-V3学习笔记（翻译＋精读＋代码复现）

路人贾jia

|

8月前

|

机器学习/深度学习数据采集监控

经典神经网络论文超详细解读（六）——DenseNet学习笔记（翻译＋精读＋代码复现）

经典神经网络论文超详细解读（六）——DenseNet学习笔记（翻译＋精读＋代码复现）

路人贾jia

567 1 1

经典神经网络论文超详细解读（六）——DenseNet学习笔记（翻译＋精读＋代码复现）

路人贾jia

|

8月前

|

机器学习/深度学习编解码算法框架/工具

经典神经网络论文超详细解读（八）——ResNeXt学习笔记（翻译＋精读＋代码复现）

经典神经网络论文超详细解读（八）——ResNeXt学习笔记（翻译＋精读＋代码复现）

路人贾jia

155 1 2

经典神经网络论文超详细解读（八）——ResNeXt学习笔记（翻译＋精读＋代码复现）

技术小达人

|

11月前

|

机器学习/深度学习编解码算法

一文读懂卷积神经网络

一文读懂卷积神经网络

技术小达人

188 0 0

胡临任

|

机器学习/深度学习算法

一篇文章读懂人工神经网络

人工神经网络（ANN）是通过中神经元的信息处理机制开发的解决各种问题的数学模型。本文将通过讲解人工神经网络的原理、实现步骤、实际案例，带着大家读懂人工神经网络。

胡临任

488 1 2

致Great_VIP

|

数据采集机器学习/深度学习自然语言处理

【论文笔记】当Bert炼丹不是玄学而是哲学：Mengzi模型

【论文笔记】当Bert炼丹不是玄学而是哲学：Mengzi模型

致Great_VIP

284 0 0

【论文笔记】当Bert炼丹不是玄学而是哲学：Mengzi模型

热门文章

最新文章

随机生成UserAgent的python库（fake-useragent库）

使用zxing识别一幅包含多个二维码的图片

阿里云的SLB，植入cookie和重写cookie有什么区别？

基于Flink的实时日志分析系统实践

如何在服务器上跑python程序

电池技术多年没有较大发展，成为移动设备最大制约

Spread for WinRT 7新功能使用指南

codeforces Soldier and Number Game（dp+素数筛选）

九度oj-1001-Java

Android:随笔——对页面的View进行截图

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势2

分解商业周期时间序列：线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法1

灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标

极值分析：分块极大值BLOCK-MAXIMA、阈值超额法、广义帕累托分布GPD拟合降雨数据时间序列

GARCH-DCC模型和DCC（MVT）建模估计

ARIMA、ARIMAX、动态回归和OLS 回归预测多元时间序列

R语言预测期货波动率的实现：ARCH与HAR-RV与GARCH，ARFIMA模型比较

spss modeler用决策树神经网络预测ST的股票

K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

matlab中使用VMD(变分模态分解)对信号去噪

相关课程

更多

【深度有趣】上海交大博士带你玩转GAN生成对抗网络

机器学习入门-概念原理及常用算法

【算法实战】6. 支持向量机算法

深度学习理论与实战（基于TensorFlow实现）

计算机视觉类比赛汇总

李宏毅2021《机器学习》

相关电子书

更多

基于神经网络的语言合成

考察数据科学家支持向量机（SVM）知识的25道题，快来测测吧

概率图模型

下一篇

阿里云oss简介和使用流程