该卸载PhotoShop了！MIT用AI实现3分钟自动抠图，精细到头发丝-阿里云开发者社区

该卸载PhotoShop了！MIT用AI实现3分钟自动抠图，精细到头发丝

2018-08-22 6232

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

是时候卸载你的PS软件了。

最近，MIT计算机科学与人工智能实验室（CSAIL）的研究人员开发了一种AI辅助的图像编辑工具，它可以自动抠图，替换任何图像的背景。

像这样：

35744c22eb09aca079d34b538d26d5398fe16033

和这样：

17f81bb4c24fa070b6961cdae29e600865ac196f

要使抠完的这些图像看起来很逼真并不是一件容易的事，因为图像编辑必须要成功捕捉前景和背景之间微妙的审美转换点，这对于人类头发等复杂材质来说尤其困难。

下图除外。

ac9b2409c43577eefb8d7055a0b211e962e12f78

“处理这些图像的棘手之处在于，图像中每个像素并不是全部只属于一个物体。”麻省理工学院计算机科学与人工智能实验室（CSAIL）的访问研究员Yagiz Aksoy说。“很多时候，我们很难确定哪些像素是背景的一部分，哪些像素是特定的人的一部分。”

除了经验最丰富的编辑人员之外，其他人都很难把控这些细节。但是在最近的一篇新论文中，Aksoy和他的同事展示了一种利用机器学习让照片编辑过程自动化的方法，而且表示这种方法也可用于视频处理。

该团队提出的方法可以将拍摄的图像自动分解为一组不同的图层，图层之间通过一系列“软过渡”（soft transitions）相分隔。

他们把这个系统命名为“语义软分割”（semantic soft segmentation，SSS），它能够分析原始图像的纹理和颜色，并将其与神经网络收集的有关图像中实际目标的信息相结合。

这一技术有多牛？看下面的视频体会一下：

9c8ea0a8bde42c618a7e42d5f65f49fce75c1aeb

3分钟AI自动抠图，彻底抛弃PhotoShop

c58e74154e4790857b5e1c1b56644d203a134af8

编辑器将图像中的对象和背景分割成不同的部分，以便于选择。但不像大多数图片编辑软件需要式样磁性套索或魔术套索工具，MIT开发的AI工具并不依赖于用户输入的上下文，你不必跟踪一个对象或放大并捕捉精细细节。AI可以自动实现这一过程。

这个过程从神经网络估计图像的区域和特征开始：

a0736ee4865090fe6c82cd6df8874aaeb019a5c7

然后，神经网络检测到“soft transitions”，例如狗狗的毛发和草。以前这个过程必须手动去做。

fb7c5ba1a7f42246e809d0a8a5c9919ad42b3ce6

然后通过颜色将图像中的像素相互关联：

fb7c5ba1a7f42246e809d0a8a5c9919ad42b3ce6

这些信息与神经网络检测到的特征相结合，对图像的层进行估计。

587f925730ae19c3e20a60cab5e7bf826bf66bbe

经过这一系列处理，现在，可以实现AI自动抠图并更换背景了。

e96e7550ef6c8b735ad83367e1efc87afe34fc4e

研究人员表示，这样自动处理一张640×480的图像需要3~4分钟。

“一旦计算出这些软分割段，用户就不必手动套索，也不用对图像的特定图层的外观进行单独修改，”Aksoy说道，他在上周与温哥华举办的SIGGRAPH计算机图形会议上发表了该技术的论文。“这样一来，更换背景和调整颜色等手动编辑任务将变得更加容易。”

当然，这个魔术一般的工具背后涉及许多复杂的算法和计算，我们将在后文介绍。该团队使用神经网络来处理图像特征和确定图像的柔化边缘。

技术细节：图像“软分割”技术炼成大法

该方法最重要的是自动生成输入图像的软分割，也就是说，将输入图像分解成表示场景中对象的层，包括透明度和软过渡（soft transitions）。

e204a4dfddfeafd191f8c566b3424883a027c274

图2：SSS方法的概述

如上图所示，对于输入图像，我们要生成每个像素的超维语义特征向量（hyperdimensional semantic feature vectors），并使用纹理和语义信息定义图形。图形构造使得相应的Laplacian矩阵及其特征向量揭示了语义对象和它们之间的软过渡（soft transitions）。

我们使用特征向量来构建一组初始的软分割（soft segments），并将它们组合起来得到语义上有意义的分割。最后，我们对soft segments进行细化，使其可用于目标图像编辑任务。

非局部颜色亲和性（Nonlocal Color Affinity）

我们定义了一个额外的 low-level affinity，表示基于颜色的长期交互。

这种亲和性（affinity）基本上确保了具有非常相似的颜色的区域在复杂场景结构中保持关联，其效果如下图所示。

4f979e28ec44aeb7d99c61e1a7a0676376d1273f

高级语义亲和性（High-Level Semantic Affinity）

虽然非局部颜色亲和为分割过程增加了大范围的交互，但它仍然属于低级别特征。我们的实验表明，在没有附加信息的情况下，在分割中仍然会经常对不同对象的相似颜色的图像区域进行合并。

为了创建仅限于语义相似区域的分割片段，我们添加了一个语义关联项，对属于同一场景对象的像素进行分组，并尽量防止来自不同对象的像素的混杂。我们在目标识别领域的先前成果的基础上，在每个像素上计算与底层对象相关的特征向量。

我们还定义了超像素的语义亲和。除了增加线性系统的稀疏性之外，超像素的使用还减少了过渡区域中不可靠特征向量的负面影响，如图4所示。

6612b350c1f8140a7b29ff3c62c304fc7a7398df

图4. 不同处理流程效果比较。（a）仅使用Laplacian matting（b）结合使用Laplacian matting和语义分割（c）进一步利用稀疏颜色连接方法。

由于特征向量不能表示人与背景之间的语义切割，因此仅使用Laplacian matting会导致包括背景的大部分的人物分割片段突出显示。加入稀疏颜色连接可提供更清晰的前景遮景。

创建图层

我们使用前面描述的语义亲和来创建图层，得到Laplacian matrix L。我们要从该矩阵中提取特征向量，并使用两步稀疏化过程，利用这些特征向量创建图层。

18741f469d9043c5767f363274846d95406101df

图6.图像（a）显示了像素稀疏化之前（b）和之后（c）的结果。

如图所示，因为我们的结果（c）保留了头发周围的柔和过渡，而常数参数（d）则会导致过度稀疏的结果。

语义特征向量

图8.我们首先为给定图像生成每像素128维特征向量（图a）。图b表示128维到3维的随机投影。我们利用每个图像的主成分分析（c）将特征的维数减少到3。在降维之前，使用引导过滤器对特征进行边缘对齐。

更多技术细节，请阅读论文：

d15470b8d9127f7609c04dda535d830990c2bcb6

该论文由麻省理工学院副教授Wojciech Matusik、CSAIL博士后研究员Tae-Hyun Oh、Adobe Research的Sylvain Paris、以及苏黎世联邦理工学院和微软的Marc Pollefeys共同撰写。

论文地址：

http://cfg.mit.edu/sites/cfg.mit.edu/files/sss_3.pdf

未来可用于视频处理

SSS目前主要是处理静态图像。不过研究团队表示，未来可以预见将该技术用于视频处理，并将可能产生许多电影制作应用程序。

研究人员表示，他们的目的并不是解决一般的自然抠图问题。自然抠图是一个成熟的领域，面临许多特有的挑战，例如在非常相似颜色的前景和背景区域中生成精确的抠图结果。目前最先进的方法取决于两个区域的颜色分布。当目标颜色非常相似时，他们的方法可能在开始的约束稀疏化步骤中失败，或者基于大面积过渡区域建立了不可靠的语义特征向量，可能导致软分割的失败。

363175e81c49607112885fc7220b2282da2ab7c4