神经网络决策过程可视化：AI眼中马云、马化腾、李彦宏谁最有吸引力？-阿里云开发者社区

神经网络决策过程可视化：AI眼中马云、马化腾、李彦宏谁最有吸引力？

2018-01-12 1832

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 神经网络在进行图像分类时如何做决策？The Hive的机器学习工程师利用开源的grad-cam项目，预测神经网络决策和图像分析时的焦点，发现神经网络关注的部分实际上与人十分类似。但是，也是有意外的地方。

神经网络所学会的“吸引力”是什么？

在判断一张图片是否安全时，神经网络看的是哪些部分？

使用grad-cam，我们探索了模型的预测过程，对于不同类型的图片，包括动作/静态、暴力、吸引力、年龄、种族等等。

30ee523cd9534609d9f8b90cab3b66c72c5adc7d

很显然，在上面展示的图片中，吸引力模型关注的是身体而非面部。有趣的是，模型在训练过程中没有接触任何明确定义的边界框，但即使如此，仍然学会了定位人体。

487fe62813cd5bf2b12a67a04786cb0b0e382030

这个模型使用200k图像做训练，标记由Hive团队完成，一共分为3个类别：有吸引力（hot）、中立（neutral）、没有吸引力。

然后，所有得分会综合在一起，创建一个从0到10的评分等级。分类器地址：https://thehive.ai/demo/attractiveness

举个例子，如果让模型来判断BAT各家掌门人的吸引力得分，将会是这个样子：

cec9dd79c1a4966f12d0598a1d833d7759670e4c

关键的想法是，在全局池化前将logit层应用到最后一个卷积层。这会创建一个map，显示网络决策过程中每个像素的重要性。

fd36177a220b65e8f0e30f398cd47e5ea6d5cb1f

一个穿西装的人位于图片正中（上图右），表明这是电视节目，而不是商业广告。电视节目/商业广告模型，很好地展示了grad-CAM发现的模型决策背后的意外原因。另一方面，模型也能证实了我们的预期，比如左边那幅单板滑雪的例子（上图左）。

a60dce52c1169027ea2202679890afde2abaf20e

上面是动画节目分类器的结果。很有意思的是，在Bart & Morty中，最重要的部分是边缘（上图左）和背景（上图右），令人颇为意外。

e4a93881e99175dde94445f15edb903e5411a1b7

CAM & GradCam：分类时，神经网络正在看什么

类别激活地图（CAM）由Zhou[2]首先开发，能够显示网络正在看什么。对于每个类别，CAM能表明这个类别中最重要的部分。

后来，Ramprasaath对CAM做了扩展，让它在不需要做任何更改的情况下，能够适用于更广泛的架构。具体说，grad-CAM可以处理全连接层和更复杂的问题，如问题回答。幸运的是，我们完全不需要修改网络来计算grad-CAM。

最近，grad-CAM++ Chattopadhyay[4]进一步扩展了这种方法，提高输出热图的精度。Grad-CAM++能够更好地处理类别的多个实例，并突出显示整个类别，而不仅仅是最显著的部分。Grad-CAM++使用正偏导数的加权组合来实现这一点。

TensorFlow实现及代码

22eb4cc9cafbfb3eeef568e35ed433771d177401

这只返回一个num_classes元素的数组，其中只有预测类别的logit非零。这定义了损失。

62dc589857f397a9f8da78f2ccf15df3326b224a

然后，计算相对于网络的最后一个卷积层的损失的导数，并对这些梯度进行正则化。

c91626831c52fc6f4965a0afc5ba37c8cd967b5e

运行图，计算我们输入的最后一个卷积层。

16efbded827c006a34ad30914464407deead770e

计算权重作为每个10x10网格的梯度值的均值（假设输入大小为299x299）。有2048个权重，因为我们使用的网络在10x10的最终卷积层上有2048个输出通道。

8256cc10004b993191cd638767a4f7c48267dfd0

创建cam 10x10粗略输出，作为平均梯度值和最终卷积层的加权和。

054f7b4a580c23e3500778d61a8a15665fcad21c

将cam输入一个RELU，只接收这个类别的正向建议。然后，将粗略cam输出调整为输入大小并混合显示。

最后，主要函数获取TensorFlow Slim模型的定义和预处理函数。用这些算法计算grad-CAM输出，并将其与输入照片混合。在下面的代码中，我们使用softmax概率最大的类别作为grad_cam的输入。例如：

48fe15dbe324633373aa200fab8cdea401b65a1a

该模型首选预测酒精为99％，赌博只有0.4％。不过，通过将预测类别从酒类转为赌博，我们可以看到，尽管类别概率很低，但模型仍然可以清楚地指出图像中的赌博元素（见右图）。

原文发布时间为：2018-01-12

本文作者：费欣欣

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”微信公众号

原文链接：神经网络决策过程可视化：AI眼中马云、马化腾、李彦宏谁最有吸引力？

神经网络决策过程可视化：AI眼中马云、马化腾、李彦宏谁最有吸引力？

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景