Uber发布的CoordConv遭深度质疑，“翻译个坐标也需要训练？”-阿里云开发者社区

Uber发布的CoordConv遭深度质疑，“翻译个坐标也需要训练？”

2018-07-17 2383

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前几天，Uber AI实验室发布了一篇非常瞩目的论文，说卷积神经网络 (CNN) 在一些很简单很直接的任务里面，会失守。

前几天，Uber AI实验室发布了一篇非常瞩目的论文，说卷积神经网络 (CNN) 在一些很简单很直接的任务里面，会失守。

比如，一张白色图片，上面有个黑点。给CNN喂食这个点的 (i,j) 坐标，它就是画不出原来那幅图。

总结起来，监督渲染、监督坐标分类，以及监督回归，对CNN来说都是大难题。

于是，团队提出了CoordConv，来回收这些失陷的领土。

不过很快，这篇论文，和拯救CNN的主角CoordConv，就被一篇有点长的博文“鞭尸”了。

博客的主人Filip Piekniewski (暂称菲菲) 说，他给这项研究做了尸检。

加个特征，而已

首先，关于 (上文白纸黑点) 定位问题，Uber团队发现，CNN不擅长把笛卡尔坐标 (i,j) 转换成独热像素空间 (One-Hot Pixel Space) 里的位置。

菲菲提到，CNN的结构，从福岛邦彦新认知机 (Neocognitron) 的年代开始，基本就设计成“忽略位置”的了。

而CoordConv要做的，就在给神经网络的输入里，加上两个坐标通道，一个i一个j，明确告诉AI哪是哪。

果然很有道理啊。可是……

总感觉，随便一个小伙伴在实操的时候，都能对CNN做个类似的小加工，就是加个特征，解码起来更舒服嘛。

菲菲说，做计算机视觉的同行们，没有人会觉得加了几个特征就是不得了的事情。

△ 平平无奇
虽然，有一个非常火热纯学术辩题，就是一些学者认为，大家只应该用那些学习到的特征 (Learned Features) ，而经济实用派的选手们不同意。

从这个角度上来说，如今现在深度学习圈的人们，也开始认同特征工程 (Feature Engineering) 了，可以可以可以。

训练成果，啊这也需要训练？

加了一层坐标之后，团队就测试了一下神经网络的表现。

可爱的是，这里用的数据集名字叫“Not-So-Clevr”。

任务就是，用坐标生成独热图像，以及用独热图像生成坐标。

结果表明，神经网络的性能确实比没加那一层的时候，好了一些。

不过，如果这些人不要那么激动，坐下冷静冷静，可能就会发现，直接搭一个能把笛卡尔坐标和独热编码互相转换的神经网络，不就好了么？

菲菲有了这个想法，就自己写了一串代码——

1import scipy.signal as sp
2import numpy as np
3# Fix some image dimensions
4I_width = 100
5I_height = 70
6# Generate input image
7A=np.zeros((I_height,I_width))
8# Generate random test position
9pos_x = np.random.randint(0, I_width-1)
10pos_y = np.random.randint(0, I_height-1)
11# Put a pixel in a random test position
12A[pos_y, pos_x]=1
13# Create what will be the coordinate features
14X=np.zeros_like(A)
15Y=np.zeros_like(A)
16# Fill the X-coordinate value
17for x in range(I_width):
18   X[:,x] = x
19# Fill the Y-coordinate value
20for y in range(I_height):
21   Y[y,:] = y
22# Define the convolutional operators
23op1 = np.array([[0, 0, 0],
24                [0, -1, 0],
25                [0, 0, 0]])
26opx = np.array([[0, 0, 0],
27                [0, I_width, 0],
28                [0, 0, 0]])
29opy = np.array([[0, 0, 0],
30                [0, I_height, 0],
31                [0, 0, 0]])
32# Convolve to get the first feature map DY
33CA0 = sp.convolve2d(A, opy, mode='same')
34CY0 = sp.convolve2d(Y, op1, mode='same')
35DY=CA0+CY0
36# Convolve to get the second feature map DX
37CA1 = sp.convolve2d(A, opx, mode='same')
38CX0 = sp.convolve2d(X, op1, mode='same')
39DX=CA1+CX0
40# Apply half rectifying nonlinearity
41DX[np.where(DX<0)]=0
42DY[np.where(DY<0)]=0
43# Subtract from a constant (extra layer with a bias unit)
44result_y=I_height-DY.sum()
45result_x=I_width-DX.sum()
46# Check the result
47assert(pos_x == int(result_x))
48assert(pos_y == int(result_y))
49print result_x 
50print result_y

一个卷积层，一个非线性激活，一个加和，一个减法。解决战斗。

他说，这种事情，就别花时间训练了。

100个GPU

论文主体结束之后，正片才开始。

Appendix里面，有这样一个表格。