新智元 关注
手机版

城市大脑入选国家新一代人工智能开放创新平台,阿里iDST副院长华先胜技术解读

  1. 云栖社区>
  2. 新智元>
  3. 博客>
  4. 正文

城市大脑入选国家新一代人工智能开放创新平台,阿里iDST副院长华先胜技术解读

技术小能手 2017-11-20 10:39:04 浏览5409 评论0

摘要: 马云的达摩院再次展示了阿里“NASA”计划的雄心,而阿里云城市大脑已经开始改变城市管理的方式,新智元AI WORLD2017 世界人工智能大会,阿里巴巴Distinguished Engineer/VP、阿里iDST研究院副院长华先胜分享了《城市大脑 - 超级人工智能应用和创新平台》,结合在杭州的应用实例,从整个城市的数据,到数据的感知,尤其是视觉信息的感知、认知,再到决策、优化、搜索、挖掘、预测和干预,一条链路下来,系统展示了城市大脑是什么、要做什么,未来要成为什么,以及其价值体现。

11月15日,科技部召开新一代人工智能发展规划暨重大科技项目启动会,公布了首批国家新一代人工智能开放创新平台名单,阿里云城市大脑与百度自动驾驶、腾讯医疗影像和讯飞智能语音入选。

阿里云城市大脑项目始于2016年,旨在以摄像头为核心进行数据采集与计算,对整个城市进行全局实时分析,自动调配公共资源,修正城市运行中的Bug,提升城市运行的效率和质量。现在,城市大脑已经成功落地杭州、苏州等地,解决了很多实际难题,并在2017杭州云栖大会上交出了一份漂亮答卷:经过一年测试,城市大脑成功接管了杭州128个信号灯路口,试点区域通行时间减少15.3%,高架道路出行时间节省4.6分钟。此外,在主城区城市大脑对交通事件进行智能报警,日均事件报警数达500次以上,准确率达92%,大大提高了执法指向性,在萧山区,120救护车到达现场时间缩短一半。

在新智元AI World 2017世界人工智能大会上,阿里巴巴Distinguished Engineer/VP、阿里iDST研究院副院长华先胜博士以《城市大脑 - 超级人工智能应用和创新平台》为题,结合应用实例,从整个城市的数据,到数据的感知认知,再到决策、优化、搜索、挖掘、预测和干预,一条链路下来,系统展示了城市大脑的定位、目标以及价值体现。

华先胜说,城市大脑是一个人工智能、云计算、大数据等方面的综合项目。不仅如此,今天看来城市大脑是一个项目,下一步就成为可以批量复制的产品,再将来可能成为平台。城市大脑初期,虽然经常被质疑,但从未被否定,而且一直在进展,下面就是阿里城市大脑过去一半年的工作比较全面的展现。

1cb2ee405df1a823427b34732d5fc1d92536bcd4

华先胜:大家好,很高兴有机会来和大家一起分享“城市大脑”。城市大脑是一个人工智能、云计算、大数据等方面的综合项目。今天它是一个项目,下一步很快就会一个可以批量复制的产品,再将来可能就是一个平台。

城市大脑这件事情是从2016年3、4月份的时候由阿里巴巴技术委员会主席王坚博士首次提出来的,那时候很多人觉得这件事很不靠谱。但是,经过一年多的时间,我们已经把一个看起来不靠谱的事情做到靠谱,让大家看到了它的价值的体现。

项目背景:深度学习×计算力×数据,萌生给城市安装大脑的想法

首先一分钟时间来回顾一下我们在什么背景下做了这个项目。大家知道人工智能有三个黄金阶段,前两次最后发现只是一个梦想,今天是第三次,但这次有什么不同?会不会和前两次一样,仍然会是个梦想。这次黄金阶段其实有四个不同点,第一是有深度学习技术,尤其是在视觉领域,深度学习基本上打败了过去所有的方法;第二是今天有非常强大的计算能力,第三是易于获取的各种各样的数据。

第四点,在上面三点的基础上,我们在很多领域都看到了很多AI的成功应用,包括搜索引擎,以及我们做过的拍立淘、人脸识别、商品推荐等等——今天的AI推荐系统甚至比你自己都更了解你想要什么。

cdf675ca248c97b5c487914a519ae12c35c49939

些技术发展到今天,让我们开始想,是不是可以去为城市的数据安装一个大脑,把城市数据的价值挖掘出来。这件事情反过来会给AI的发展带来什么,我们到最后再来探讨。

从宏观来讲,在一万尺的高空看,城市大脑到底是什么样的?城市是一个大量异构数据的聚合体,每天都在不断地积累大量的数据。其中一类很重要的数据是视觉数据,中国的城市里有大量的摄像头,成千上万的摄像头24小时都在看着这个城市,这些数据的价值到底在哪里?难道仅仅是交通处罚和记录车牌?

现在有了强大的计算能力,有了今天的AI技术,是不是可以重新思考这个问题,把城市数据的价值充分地挖掘出来,让这些数据产生不可替代的价值,改变我们管理城市的方式,改变我们的生活方式,从而改变这个世界。

城市大脑:经常被质疑,从未被否定,一直在进展

2854e19b098f5277dd9df64885c5bcf6bb24a254

我们当时开始这个项目的时候其实有很多的挑战,不外乎三个关键词:Cost, Value和Difference:第一是它的代价,处理这个城市的视频数据的代价是否能够承受, 我们能不能够做出来?因为我们需要处理整个城市的视频,处理大量的计算,今天的AI技术、视觉计算的技术,是不是可以把整个城市的信息充分地感知,充分地分析和决策,这些方面还有很多的挑战;第二是能够产生的价值是否值得这个付出;第三点,过去做智慧城市、视频监控,以及近期在讲的“边缘计算”,跟我们今天做的有什么不一样?最开始我们跟杭州政府合作,杭州市希望我们把它叫“智慧城市”,我们不同意。希望我今天讲完之后,大家能够明白这里面有什么不一样。

我前段时间跟高层汇报时把城市大脑项目的状态总结成三句话,叫做“经常被质疑,从未被否定,一直在进展”。我们一起看看,我们到底有什么样的进展。

7efac60cbca77db6878e3559ce21cbc95d08c1ad

我们稍微靠近点看,从100尺的距离看,城市大脑是什么东西?首先,有大量的数据,不只是视觉的数据,当然今天我们以视觉的数据为主来讲它。这些数据来了以后,我们首先要理解这些数据,尤其是视觉的数据。其他的数据,比如GPS数据,拿来做点降噪等处理就能用了,但视觉的数据拿到的是像素,所以第一步要先认知,有了比较全面的认知以后,第二步才是基于这些数据去做决策。

先看第一步认知,比如我们要知道路上有什么车,有多少人,车和人的行为是什么样,交通状况是什么样,有没有交通事故发生等等。第二步进行决策,有些直接基于视觉感知的结果就可以进行决策的,比如有交通事故的发生,有拥堵发生,马上就可以进行对应的处理。另一些更深层的决策是基于历史和现在的大数据,比如红绿灯的优化,交通的管控,交通流量的改善等等。再下一步,第三步搜索和挖掘,我们把视觉信息和其他信息放到一个索引里,就像过去做商品的图像搜索一样,我们可以进行搜索、挖掘,比如针对嫌疑车辆,找出它前几天在哪里,现在在哪里,活动轨迹是什么样的。

有了这些,我们就可以进行第四步的预测。举个例子,很多GPS给你规划路径是没有预测的,所以看上去这条路线最优,但是走着走着系统会推荐别的路线,这其实是没有预测导致的。如果我们能知道十分钟、二十分钟、三十分钟以后每个路口的交通状况,就可以得出更好的路径规划,甚至对交通进行改善、疏导,这就是预测。

预测也可以是更长时间候的预测,例如,如果某个城市明天将会下大雨,还有几个地方又大型的活动,那我们是可以估计出来明天这个城市在哪些路段会拥堵,哪些路段交通事故的频率会大幅度增加。知道这些,我们可以提前分配人力、警力和医疗资源,从而能更高效应对将要出现的状况。

第五步是干预,干预是建立在预测的基础上的。可能大家看过一部电影,叫《少数派报告》,这个电影本身是有点反预知。而今天,如果我们能知道明天这个城市在什么时间段、什么地方可能有不好的事情发生,我们就可以提前做一些事情去预防这件事情发生,比如明天哪里拥堵超过一个小时以上,哪个路段事故的概率增加三倍,我们就可以对交通出行进行指导,通过交通灯控制车流等,从而避免不好的事情的发生。

整个一条线下来,在交通和安全领域,我们可以把它看做城市真正有了一个大脑,大家可以看到为什么我们把它叫“城市大脑”而不是“智慧城市”,因为我们有新的方式,新的功能,城市真的像有大脑一样,运行变得更加智能。当然,整个城市大脑还有其他的内容,我们今天主要以交通和安全两个角度来展开讨论。

城市认知演进:希望做到三件事——全面、全量和实时

14036b6ae7a0c5bbc67e8050f1cae32be79689c5

城市的认知有其发展的过程。最早城市是没有认知的,如果发生了什么事情,需要走访,去问问大爷、大妈有没有看到什么人或什么事情。后来开始有安防,安装摄像头了,但最初安防行业也不是一个高科技的领域,基本上就是装摄像头设备。后来有很多公司在摄像头端做了一些智能的算法,这时候就开始有智能在里面了。

2016年,我们开始做城市大脑,我们希望做的事情有三个特点,我总结为全面、全量和实时。

9fce2114c0f79bd810f053fb703886aa30a744c3

第一,全面(Comprehensive)。因为AI技术的发展,我们可以对整个城市的感知、认知做得更加完善。比如对车辆的跟踪、检测、识别,车到哪里去,车是什么类型,要了如指掌。上面这张图展示了高点摄像头图像,虽然这种角度看不清车的细节,但是能大概知道城市里车辆的数目,比如划一个区域,就知道这个区域过了多少辆车,区域里有没有人经过,我们对整个城市人和车的移动就有了宏观的把握。

31e13561802de1c96258c8a4ae917c6d6686f5f8

这个是通用的人、车、骑行人的检测识别。我们希望能够识别尽量多的不同尺度、不同光照条件、不同的视频质量,就像上排最右边这个视频,即便是晃动的,我们一样能够做到非常精准的检测和识别。

d7bb0d1e6841f9fb1b51a6276000bfd17dbebb33

还有城市里的异常事件,比如交通拥堵或交通事故,我们都能及时了解,及时报告。很多交通拥堵是事故造成的,如果不及时处理会引发很多的问题。今天发现交通事故是靠人去报,不严重的吵吵十几分钟,严重的交通事故需要有人看见或者在摄像头里看见才行,而那么多摄像头,只有很少的人在看。有了城市大脑,我们就能非常及时地发现这些交通事故,严重的交通事故我们可能因为能早发现而救人一命,一般的交通事故可以及时缓解因之引起的交通拥堵。

对于全量(Global)实时(Real-Time),更多是系统方面的工作,也涉及到算法的效率。因时间关系,这里就不细讲了,大家只要知道一点就可以了:我们的城市大脑是基于阿里云的计算平台来构建的。因为有阿里云大规模的计算平台,不管是实时的计算还是离线计算,有了这个计算平台,我们建立大规模视频实时处理的平台就不是十分困难。决策和优化:以杭州交通系统为例

第二,有了这些信息以后,我们能做什么?其中两件事情,一是决策,一是优化。

e49fc751b6336c01f8791cce5768f838d02e25a8

杭州正在运行的系统,对城市的事件事故进行自动检测和报警

我们看几个例子,这是在杭州正在运行的系统,对城市的事故自动检测和报警。每天都在产生实时报告,报告的结果会下放到各个交通大队,各个交通大队的人都在看,并根据不同情况采取不同的后续措施。

这几个图给了更多的例子,包括碰撞的事故,包括非机动车进入高架路,以及非法停车等等。现在都可以通过普通的摄像头就可以进行实时的获取,这些信息当然就会及时地送给警察,进行后续的处理。

a329c1a6dca3cb4a3be05340609b4fc957701069

普通摄像头实时获取城市交通数据,包括碰撞事故,非机动车进入高架道路、非法停车等

如果我们不仅仅知道单个的事件,还知道很多事件在同时发生,或者在同一个地点经常发生,比如说下面这张图显示的两个例子,实际上是两个路口,这两处都经常发生交通的拥堵事故和违章事件,这就反映出需要解决的问题。当时这个系统运行一段时间以后,就在杭州自动发现了六个点,交警处理之后情况得到了很大的改善。

b4ea6ac5360e6227ca7d0ec77ca615c0671c44c7

当然,有了全局的信息以后,我们就可以做红绿灯的优化。以前红绿灯的配置优化是通过地感线圈的信息去做的,很多细节不知道,而且线圈埋在地下容易坏。今天我们用摄像头看,过了多少辆车,车的类型,车的走向……看得很清楚,还知道行人的信息,比如行人有多少,过红绿灯要多少时间,等待了多长时间,而地感线圈、GPS是无法获取这些信息。新的通过视觉收集到的信息可以放在交通优化模型里,从而得到更准确的红绿灯优化配置方案。

还有很多城市有禁止左转的方法来改善交通,过去哪里要禁左,要做很多人工调查,对周围各种情况进行人为走访,之后才决定哪里该禁左,哪里不该禁。今天通过摄像头的数据,可以看到很长时间以来的交通状况,到底左转应该禁,还是应该延长,今天有了这些信息,我们就可以做到更优的状态。

搜索和挖掘:索引城市数据,建立城市智能搜索引擎

450da25c7e6d8922a06dfd9b4af560fb75d75fda

我们还可以把整个城市的信息放在一个索引里。这里面有两个核心的问题:第一是数据量。假设一个城市里10万个摄像头,跑10个小时就是100万个小时的视频,而城市一年365天都在跑,大家可以想象这个数据量有多大。

构建一个搜索系统,我们需要一个大规模的图像分析处理的流程,然后把图像的特征放到索引里去。我们一般有好几组服务器来host索引,一组通常也有很多机器,每组机器合起来是一个完整的索引。在搜索过程当中,用户提交一个Query 的请求,这个请求会送到其中一组索引的每一台机器里面,每一台机器返回的结果,经过一层一层的汇聚以后,最后才会把结果反馈给用户。这里面有算法的问题,比如在每台机器上能不能做到高效,也有很多台机器协作的问题。后面这是一个系统的问题,两者配合在一起才能解决效率的问题。

abe693a970645829d8c727263ef1de8ba3ca9eb4

第二个难点就是怎么搜,这是算法的问题,其中最关键的就是怎么去描述物体,描述移动目标、车、人等等。我们以前做拍立淘的时候搜索的是商品,也是要为这些商品建立一个描述方法,也就是特征。今天深度学习技术为我们带来很大的便利,我们可以去学习一个特征。我们去设计合适的神经网络,逼迫这些神经网络收敛到我们想要的地方,比如像这里讲到有两种方式,一种是通过识别的方法去逼迫网络,输出一组特征,实际上就是一个向量,这种向量能够在本质上代表你所关注的物体。

还有一个方式叫重新识别损失,包括全局loss,部分loss,特征点loss,这些技术都是为了让神经网络收敛到一个地方,让它能够用一串数字代表这个物体本质的特征。城市搜索是比电商搜索更难的一个问题,在电商搜索中要找一个商品,假设一辆车,宝马X5,张三的车和李四的车,实际上是同一件东西。而在城市的搜索中,我们需要找到张三这辆车,如果返回的是李四这辆车,哪怕颜色车型都是一样的,这时候结果也是错误的,因为我们要找的就是张三这辆车。这些棘手的地方需要特征学习能够自动发现物体细微的差别,把这些差别反映在特征里。

我们正在乌镇互联网大会上线这个技术,希望届时能够让大家看到这个技术的真实应用。

城市大脑:今天是项目,明天是产品,未来是平台

fa4324eb76f734aa9fb8c9aff6154b39d416ae40

从整个城市的数据,到数据的感知,尤其是视觉信息的感知、认知,再到决策、优化、搜索、挖掘、预测和干预,这一条链路下来,我们称之为城市大脑。当然今天更多是从交通和安防的角度讲的,希望将来可以有更多方面的智能,包括资源、电力、医疗等信息,更多的数据和智能也会在城市大脑里展现。

我们稍微退回来讲一下,城市大脑这件事情与其他的AI技术和应用到底有什么不同之处?

第一点,它是用今天强大的计算力和AI技术,去发掘整个城市里不断积累的大量异构数据的价值。我经常举的例子,过去的手机只是用来打电话,今天大屏几乎成为手机的一个标配,没有大屏的话很少有人会买它。这是因为大屏成为了今天手机不可替代的部分,因为其有不可替代的价值。城市大脑也是这样,是要把城市数据的不可替代的价值挖掘、体现出来。

第二点,城市大脑所做的事情超越了单点人工智能的技术,所以有时候我们会把它叫作机器智能。机器智能强调的不仅仅是单点的感知、认知的能力,而是要把数据汇聚起来,利用强大的计算能力,强大的融合能力,把数据的价值展现出来、挖掘出来。所以我们有时候讲,城市大脑实现的是人的大脑不能达到的智能,比如像红绿灯的优化是人不能达到的,交通事故的感知是不可能全面铺开的,一个人看几个摄像头可以,但看完整个城市的摄像头是不可能,包括上层的预测和干预等,都是没有办法通过人力完成的。

第三点,数据成为一种资源,我们希望城市大脑将来会成为一个城市的基础设施,就像水、电一样。

b0dbd6ed8d65aeb045ea1638ae5df0cf232dd3f5

因为深度学习的技术、AI的技术、计算的能力,当然还有设备、网络、带宽等等让AI有了非常大的飞跃,这让我们想为城市建立一个大脑,挖掘这些数据的价值。我一开始就讲过,今天它看起来像一个项目,我们在杭州、苏州、乌镇、衢州等不同的城市逐渐开展,下一步很快它就会成为一个产品,再下一步它会成为一个平台。这个平台必将会推动AI,或者机器智能的进一步发展、壮大和落实。

因为计算的量、数据的量、需求的量,以及它所带来的影响力和价值都使得城市大脑会成为一个超级的人工智能研发和应用的平台,会需要很多家公司、单位共同来构建。在这个平台上,有非常广泛的空间提供给大家,让很多人能够在这个平台上一起创新,一起挖掘数据的价值,一起来为整个城市带来惊喜,谢谢大家。


原文发布时间为:2017-11-18

本文作者:AI WORLD 2017

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:城市大脑入选国家新一代人工智能开放创新平台,阿里iDST副院长华先胜技术解读

【云栖快讯】阿里云栖开发者沙龙(Java技术专场)火热来袭!快来报名参与吧!  详情请点击

网友评论