中国人工智能学会通讯——打造云上视觉智能生态 1.4 视觉智能实例：城市之眼-阿里云开发者社区

中国人工智能学会通讯——打造云上视觉智能生态 1.4 视觉智能实例：城市之眼

2017-09-01 1431

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.4 视觉智能实例：城市之眼

视觉之眼，是城市的眼睛。我们要处理的是城市的摄像头，不管是交通、安防、城管，还是个人的，这些摄像头的数据，我们思考怎样把它的价值挖掘出来。里面涉及到的技术仍然是视觉数据的检测、识别、系统、搜索、挖掘等。

这个例子是交通视频的分析，对车辆的检测、车辆的跟踪、车辆的属性，就是将路面上发生的事情了解个底朝天。过去做交通优化时有两个信息源，第一个是地感线圈；但线圈数据不知道这个车的属性、车类型、车多长，这个车到哪里去了，这个信息不全。第二个数据，是GPS的数据，但一般只有少数人开启GPS，所以是采样数据。视频数据不同，是“眼见为实”，摄像头见到的才是真实完整的数据，所以这个数据是不可替代的。

这个例子是另外一种摄像头，高点的摄像头，虽然细节看不清楚，但是数数可以数得出来，而且，你任意画一个区域就知道关于这个区域物体的移动情况。比如经过多少辆车、大概的类型是什么；有的地方不让停车，你可以画个区域不让停，一旦有车停了就报警。这些技术也没有什么特别的地方，也有很多人做类似的工作。但是有一件事情不同，就是如果处理大量这样的数据，几万、几十万这样的数据，你需要在一个平台上进行实时处理，这就不是一个简单的事情，而且处理的效率要足够高，这是很关键的事情。我们有离线和实时两套处理系统，大规模离线视觉分析，这个是阿里的一套系统，对实时性要求不高的大量视频数据，离线比较容易处理。实时的原理也差不多，只不过有延时方面的要求。系统实现上，还有时间上的和空间上的实时协同。比如说，对一个路口的交通灯进行管控，你要看这四个路口，还要看旁边几个路口，你在实时分析时还需要把空间多路信息进行融合。时间和空间的协同问题，是由平台来支撑，而不是算法，这样我们做算法的人员就可以集中在算法的设计和优化上。

还有搜索的功能，刚才讲了电商的搜索，这个量级不小，但是还有一个量更大的就是城市的数据。城市的数据量太大了，里面有车、有人。人是非常难的事情，人脸相对容易，而看不清人脸的人就非常难；车相对容易一点，我们要学习它的结构化特征和它的非结构化特征，也就是用一个向量表示的视觉特征。

这里我稍微岔开来讲两个关于视觉数据的特别的例子，其实也是城市视觉识别技术的例子，但又是在数据的量上和我们直观的感受并不太一致的例子。第一个是车牌。数据这件事情是非常有意思的，刚才讲了大数据，但是刚才讲的数据一个是研发算法的原料，第二个是人工智能的原料。对于算法研发而言，往往需要大量的标注数据，但有时这样的数据并不容易获取，或者获取的成本比较高。例如车牌的识别，车牌看起来数据量很大，但双层黄车牌的量就要小很多。有一种思路就是自动生成一些车牌作为车牌识别的训练数据，这两幅图就是例子，是算法生成的以假乱真的车牌。这个车牌产生以后，对识别的准确率有显著性的提升。还有些场景，数据的获取更可怜，比如事故，但是你有大量正常的样本，一样可以用来作数据的模型，把它作为异常检测的问题来做就可以了。这上面是公开测试级上的结果，视频中间有人撒了一点纸，这个异常的检测响应是非常明显的；下面的这个例子是车辆的刮蹭，是个真实场景，难度就大多了。