PTGAN：针对行人重识别的生成对抗网络 | PaperDaily #36-阿里云开发者社区

PTGAN：针对行人重识别的生成对抗网络 | PaperDaily #36

2018-01-22 4046

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文提出了一种针对于 ReID 的生成对抗网络 PTGAN，可以实现不同 ReID 数据集的行人图片迁移，在保证行人本体前景不变的情况下，将背景转换成期望的数据集 style。

另外本文还提出一个大型的 ReID 数据集 MSMT17，这个数据集包括多个时间段多个场景，包括室内和室外场景，是一个非常有挑战的数据集。

论文用 PTGAN 来缩小不同数据集间的 domain gap，并在新提出的 MSMT17 这个大数据集和其他一些公开的小数据集上做了实验。

MSMT17 数据集

MSMT17 是一个大型的 ReID 数据集，现在的一些公开数据集的准确度已经被刷得很高，这个数据集的提出进一步延续了 ReID 的发展。不过数据集目前还有公开，等待论文接收后数据集可以公开。

MSMT17 数据集有以下几个特性：

5dad1e839a913ac11f9170aa070ba4b7e6d4d7e7

△ MSMT17 数据集和已有 ReID 数据集的对比

da1263050b10e4a76d7fb3a1946fac0ac4bfc3dc

△ MSMT17 数据集的图片和其他数据集的直观对比

PTGAN

Person Transfer GAN（PTGAN）是作者提出的一个针对于 ReID 问题的 GAN。这个 GAN 最大的特点就是在尽可能保证行人前景不变的前提下实现背景 domain 的迁移。

首先 PTGAN 网络的损失函数包括两部分：

4391e1541a74a5891e8525a46490f560d36695ed

其中 LStyle 代表生成的风格损失，或者说 domain 损失，就是生成的图像是否像新的数据集风格。LID 代表生成图像的 ID 损失，就是生成的图像是否和原始图像是同一个人。λ1 是平衡两个损失的权重。下面的关键就是看这两个损失怎么定义。

首先 PTGAN 的基础是 CycleGAN，所以 loss 也和正常的 CycleGAN 的 loss 差不多。首先第一部分是 LStyle，这个就是标准的 CycleGAN 的判别 loss。

b1a9988b7fe26690078b1a80f5e13364bf987582

以上几部分都是正常的 CycleGAN 的损失，保证生成的图片和期望的数据集的 domain 是一样的。

论文的另外一个改进的地方就是 LID。为了保证图片迁移过程中前景不变，先用 PSPNet 对图片进行了一个前景分割，得到一个 mask 区域。

传统的 CycleGAN 并不是用于 ReID 任务，因此也不需要保证前景物体的 ID 信息不变，这样的结果就是前景可能模糊之类的质量很差，更糟糕的现象是行人的外观可能改变，比如衣服颜色发生了改变，这是 ReID 任务非常不希望见到的。

为了解决这个问题，论文提出 LID 损失，用 PSPNet 提取的前景，这个前景就是一个 mask，最后 ID 损失为：

a96128a845386fdc87d1e660da647465ba1e76c1

其中 M(a) 和 M(b) 是两个分割出来的前景 mask，ID loss 将会约束行人前景在迁移过程中尽可能的保持不变。最后转换的效果如下图所示：

a7fb4a9fcc3547f629bb58bda2690ab71b20242f

可以看出，直观上和传统的 CycleGAN 相比能够更好的保证行人的 ID 信息。

结果

bfdfa5786984e8b1cf0fb8fc5fe933e00b947365

实验结果如上表，虽然论文没有用特别复杂的网络来训练，但是将另外一个数据集通过 PTGAN 迁移到 MSMT 上都能增加 MSMT17 数据集上的 performance。并且从准确度上看 MSMT17 还是一个非常难的数据集。

原文发布时间为：2018-01-22

本文作者：罗浩

本文来自云栖社区合作伙伴“PaperWeekly”，了解相关信息可以关注“PaperWeekly”微信公众号

PTGAN：针对行人重识别的生成对抗网络 | PaperDaily #36