演讲实录丨朱珑 开启人工智能之眼

  1. 云栖社区>
  2. 博客>
  3. 正文

演讲实录丨朱珑 开启人工智能之眼

沉默术士 2017-05-23 16:02:00 浏览1758
展开阅读全文

开启人工智能之眼

朱珑

依图科技CEO、计算机视觉专家


 朱珑:非常感谢张老师和白老师邀请,让我们这些青年人有机会在这里聚一聚。今天讲一下AI一些自己的理解,可能跟大部分人身份稍微有一些区别,我大概从事这方面学术上研究将近十多年时间,前面几年开始做创业,可以从两个行业纬度谈一谈之间相关性。


    不知道我们在国内怎么谈创业?在美国有一个创业或者硅谷有一个创业基本定义,中国创业在美国是有两个词,极不确定性情况下追求高速增长。这两个词推出什么不是创业?比如说我们在国贸这里开一家咖啡厅,这不是创业,这是一门生意,但是很难做到高速增长。什么是创业?我要开1000家咖啡厅,这个叫创业。还有对不确定性理解,如果我们在大公司开一个部门做一个方向性探索,或者说拓宽一个市场,这个比较不像创业,因为没有极强的不确定性,无论品牌、人员等等这些东西。一个极不确定性,一个超高速增长,这两个本质什么?就是风险。


    风险这个词恰恰把最牛的创业,和最牛的学术研究关联起来。创业是追求非常短时间的高速增长,所以它是短时间内的创业,大概7到9年的时间,这是有一个结论或者结果。学术圈可能追求2到30年的结论,更追求回报。这种周期或者不太一样,很恰巧通过风险来把学术研究跟创业关系做了一下关联。


    人工智能非常火,我大概是12年从美国回来创业,当时应该什么情况?当时创业人不是特别赶着人工智能,无论在国内外AI还没有成熟的时候,你说你做AI人家说你吹牛,深度学习没有被产业界形成共识的时候,是一个比较低谷的时候。12年我们在中国的时候,我的天使投资人是徐老师,他自己做投资也算是一个新的开始创业历程,所以12年的中国是一个非常有意思的时间点,在那个之间技术人员不是那么的值钱,更多是资源密集型,比如资金密集型或者材料密集型投资为主。到12年开始我们创业者,智慧密集型或者技术密集型创业开始形成潮流也好,普遍的现象。


    直到15、16年不同领域,包括语音识别,视觉识别一些成熟,人工智能开始有了一个普及性认识,不仅在投资圈、产业、平民老百姓,智能给我们生活之间离的多近。特别是16年,我们今天这样有机会在这个地方交流,人工智能本身给我们带来了。


    我和人工智能什么关系,第一段历史,一个是跟物理相关,跟脑科学相关,跟神经网络相关。我是统计学的博士,我的导师以前学物理出身,霍金理论武力的博士。最后一段历史,现在世界上所有用的人工智能的所谓算法,就是深度学习,深度学习有一个卷积(音译)神经网就是这个教授发明的。正好是学术界跟AI相关不同领域的人,可以看到AI从业者五花八门,有做物理的,有做计算机,大家兴趣点专业背景不一样,都回归到对智能理解和研究上。


    因为在座很多不是从业人员,这里有4组图,一共4对,大家花30秒时间看看哪几组是同一个人。你作为人自己到底深怎么识别人脸?有可能都不是,有可能都是。你们思考越投入越能感受到自己多么不了解你作为人类怎么认识人的。左上角有认为是同一个人吗?五分之一。右上角有吗?二十分之一。这个答案只有左下角是同一个人,这个论证一下说这个人类,因为你自己是人类,可以感受你自己怎么识别,你到底看眼睛还是嘴巴?我们从100万库里面让机器选,让相识度非常高的人,也就是机器是人类很难辨识的。


    下面一个话题,今天的机器到底多智能?刚才看到人的感受,我们有一个观点。我有一个客户是公安的,他做了一件事情,把他女朋友的照片,比如今天这个场合随便一个活动上拍的照片,到我们数据库或者到我们系统当中搜索,这个库大概1000万人,出来的前10名人,哪一个是他女朋友?他是选不出来的。当然这里有一个小的问题,数据库里面有身份证的照片,也有隔5到8年的时间,也有可能今天女朋友是化妆的,证件照没有化妆。之前有人说机器已经超过人类了,人会说不公平,因为记不住那么多人,人容易比较识别比较熟悉的人。今天这个实验告诉你,你有可能非常熟悉的人,认识5年10年的人,机器可能比你更能认识这个人长什么样。这是技术上一个更强的结论,因为你认识这个人他有多种形态,他的姿态,他的年龄变化,或者他的表情化妆等等。


    人对这件事情也是认识的不是那么的完美,今天机器即使在你非常熟悉的情况下,今天在会场上认识100个人,让我说记住谁是谁,这是记忆的问题,当然没有机器做的好。下面讲人脸识别,我们做的业务比较多,产业落地过程当中可能跟学术界也好,这个区别比较大的。公安流程叫什么流程,一个业务一整套的破案方式。左上角我们再一个视频监控里面,一个城市或者一个区域,这个会场我们比如说布了30个摄象头,其中一个摄象头拍到作案场景,或者是说犯罪嫌疑人的某一张照片,这是最左边的步骤,这个照片留下这个人,我们可以去数据库,比如说今天会场所有人员的数据库当中搜是哪一个人,这是第一步。找到在库中谁谁这个结论。


    第二步,去所有会场上拿这个库中的照片,找这里面的轨迹,能够知道他在什么位置出现过,或者什么时间出现过。第三步,进行布控,我们知道他的规律。现实当中我们会在地铁或者高铁,或者比较重要的出入口去定点。某一个区域,某一个时间段布控,把这张照作为怀疑对象抓住。最后一步,当你识别报警的时候,推送给业务的民警,民警不愿意在那边看着,等有嫌疑的人有给现场的勘察。


    我们讲一下中国的今天人脸识别做到什么程度?总结一句话,大家在美国的片子上看到的反恐片,基本上在中国都能做了,而且这个定位在美国是基本上做不到。这个领域以我对美国的了解,或者全球了解,中国这个方向上业务落地方向上,应该是全球最好的。我们看一下这个是治安的摄象头,大马路上,左边是拍到人脸模糊情况,摄象头有象素会低,基本上没有什么问题。摄象头不需要每一次拍到正脸,这种在我们的一些摄象头部署比较好的区域,基本上能够做到7、8成能够抓到,非常高的比例。


    下面看一下场景,这是比如说是网吧,左上角是侧脸,不完全正脸。这个是QQ的,这个是修手机时候的,这是在车里的,原来拍车的摄象头,看到车里面的人脸。这个是ATM机的,这个是抓捕左边是视频接力是他坐在那辆车,通过出租车镜头找到他这个事情,这个视觉比较大。这个是尸体的,尸体当然是要有一定的时间不能变形太大,水肿不能太厉害。一段时间基本上没有什么问题。这个是在地铁、高铁进行实施布控,用这种视频非接触式,不用看这个摄象头基本都可以。这个是在讲跨度非常大,有超过十几年的,这些都是15年前的,15年前照片不像今天彩色照片那么好,是有这种年龄上的差异。


    这些感觉什么?我不知道大家听了什么感觉?我是做人脸识别从业人员,但是给你一种感觉你在设计、实验,哪怕测试自己算法的时候,你知道做到99.99,不管性能什么?我当时并没有预测到在我们生活场景当中能够这么普遍的被推广,被应用。比如说刚才尸体照片,设计时候并不想做尸体,不管三七二十一都往里面试,人工智能有时候比专家,比世界最牛专家很可能没有办法知道他真正的潜力和边界在哪里。


    这个是另外一种案例,刚才对一个人的案例,嫌疑人只有一个。另外这个是我们在某个城市跟大数据处理相关一件事情,这个城市你可以想象大概1到2千万人,中国大概有小几十万的通缉犯。把这几十万的通缉犯照片跟本地1到2千万的照片做交叉对比,大概几万亿的对出,里面输出人脸长的一模一样,但是他们身份证逃犯,身份证换过了。当然脸没有换,时间会随着变老,当然不是整容。找出几对,后来找到8个在当地是真正的通缉犯,当天可以利马抓捕3、4对。


    这个对民警非常大的冲击,这个片子里面从事件驱动神经,今天有案件找人,大数据意义对这个城市理解情况下找人,这个模式完全变了,时效性以前都是几个月时间才可以找到线索,今天计算机算了几个小时或者一两天,当天几个小时之后就可以抓到人,完全效率和模式上跟过去有巨大的差异,这个对民警有非常大的冲击力。这个稍微比较容易想到,怎么服务,我们客户经常碰到老人走丢,这时候特别心急。但是民警现在配了警务通,上面拍了一个老人就可以知道。在1000万人当中,拍一张照片就可以把这个人找出来,现在技术可以到几亿人没有问题。


    我们公司拿了过公安部边检测试第一名,公安部刑侦测试第一名,招商银行测试第一名。招商银行有1000万个网点,你现在身份证有相关的认识,这里面一看这不是本人,营业员就有其他手段跟你网下交互。这个量级非常高,他们测试有亿级,从一亿人里面把你找出来,大家看到网上新闻,学术界到百万量级,产业界测试到亿级,这里差距非常大。


    我们做到人脸识别非常强的应用的时候,我们人类认识的边界在哪里?机器能跳到90米的时候,可以帮助我们看到90米那个空中什么样,可以帮助我们知道我们人类到底在几十米,我们差距什么。不仅是性能帮助服务于我们这个社会,还帮助我们了解我们自己,了解我们大脑什么样。这里做一个实验,中国13亿人当中,差不多有12个人13个人长的一模一样,每一亿个人有一个人跟你长的一样。从学术来讲人脸这种特征有两个眼睛,一个鼻子一个嘴巴构成的器官,或者一种信息,到底人与人区分度极限多少?结论是有一亿人会有一个跟你长的一模一样,你坐在旁边人没有办法区分谁是谁?就是超越人类认识的边界。


    有的人非常不服气,我长的这么漂亮,不可能十几个人跟我长一模一样。但是有人比较激动,我长的比较有特点,我很愿意找那十几个人出来。没有任何差异,无论眼睛、鼻子、嘴巴关系,以及细节形状都差不多。后面来讲前面都是一个摄象头看到的世界,包括人脸识别等等,我们想机器为什么从人工智能今天很可怕,或者可能超越我们的想象,机器没有任何生理上的限制。一个机器可以装一万个摄象头,如果到一万个摄象头机器能做什么?


    这个是我们在杭州市政府做一个项目,杭州的城市管理。杭州跟北京有一点类似,差不多一个量级,一个拥堵指数非常高的城市,我们想解决这个诚实的拥堵问题,通过我们对城市里面的马路,上面跑的车,跑面的控制,比如说红绿灯进行建模,进行模拟,进行预测,进行优化,希望能够给政府管理部门给一些优化后的结果。比如说我们案例当中给了一条路,我们作为非常看似很简单的事情,就是对这些行为进行优化之后,比如说红绿灯,今天绿灯停60还是50秒,跟红灯比什么?调解这些参数,可以通过这条路的时间减少10%。


    传统意义上说,一般这里面有路口,有流量统计,但是非常粗糙。今天有一万个摄象头的时候,每辆车从哪到哪?在什么时间非常变化什么样。有的时候东西向不一样,这些非常多细节能给你优化空间。过去传统这种建模手段很难到这种精细,或者这么大规模数据处理分析上,有这么一件事情上能够对城市管理,或者非常宏观的在通过大规模的微观数据进行定量管理。凭着定型或者人的经验知觉跨越到定量科学管理。


    大家谈人工智能,我跟一个非常牛的朋友聊天,我说我们跟今天大家有讲观点类似,人工智能离美国差距还是有的,特别是人才厚度上,和产业厚度上。我受到很大启发,他说不是的,中国应该是非常具备这样一个时期能够挑战或者来做世界级研究也好,或者是工作。我刚才讲的城市管理案例不完全属于人工智能这个方向,但是课题上我们中国有类似这样,因为人口,因为城市非常特殊的命题,在难度上和规模上是世界级,即使是世界上最好的实验室和学术公司并没有非常好的手段来做,甚至没有条件和基础。中国有非常不少的这样一些我们生活特殊的问题,有可能在加州没有,在法国没有,我们中国有。


    我们观点说在中国有这样的命题,就能决定我们这帮年轻人,无论是技术从业者还是产业从业者能够挑战到这种高度。我就分享到这里,谢谢大家!

本文来源于"中国人工智能学会",原文发表时间" 2016-10-26 "

网友评论

登录后评论
0/500
评论
沉默术士
+ 关注