演讲实录丨黄伟 AI已来,未来已来

  1. 云栖社区>
  2. 博客>
  3. 正文

演讲实录丨黄伟 AI已来,未来已来

沉默术士 2017-05-23 15:58:00 浏览1054
展开阅读全文

AI已来,未来已来

黄伟

云知声董事长、语音识别技术应用专家


黄伟:大家下午好!非常感谢邀请。我觉得前面山世光对公司有一个非常好的定位,介于学术和产业之间。我可能是唯一一个做云技术,第二我们可能长期在工业界。今天人工智能热潮十多年比较冷的一个方向,这样我更多从工业界角度来看,我们可能对AI的看法和认知。今天题目是云知声的成长之路。

    其实AI在过去60年里面,我们经历过高潮和低谷,在过去两次相对比较失败低谷里面,确实是当时一个技术条件,产业条件可能没有达到那个需求。要么是运算能力不足,要么是没有大数据,当然不可能有新的理论算法所支撑。今天第三次高潮,这三个要素相对比较具备。今天我们学习方法有相对比较成功的算法,深度学习。另外这个PC互联网和移动互联网,人和人之间,设备和设备之间,设备和人之间产生大量的海量数据。


    同时,今天有更的强运算单元,不光有CPU,还有GPU,使得我们可以用一些具备运算资源。我们一方面不能忽视用户习惯的养成。在中国10多年互联网发展过程当中,用户养成非常好的用户习惯,这个技术成熟用户之间形成一个非常好的集合点,某些领域里面今天这个AI技术使得更加成熟,做成产品化和商业化。在家具、医疗等很多领域,今天AI已经产品化和商业化。


    简单介绍一下机器学习算法的演进。上一代基于统一学习,我读书的时候进实验室开始学,用统计学方式进行描述,使得这个模型对于未来产品数据进行比较准的预测。在云方面2011年的时候,微软研究员最先把深度学习用在云识别系统里面。C2C这些技术使得我们在过去4年前,我们的技术水平得到进一步的提高。4年前语音识别已经进入领域,4年前不光算法本身还是迭代从当时90%提高到今天97%,今天在日常对话,说100个字不再需要修改什么内容,这就是算法和数据提升的巨大的进步。


    今天看到深度学习几乎我们可以说学习领域里面颠覆了,包括像语音合成,包括翻译等等,为什么取得这些突破?我们之前所谓深度学习,人类、科学家一些知识,事先设定一些结构,使得模型结构对这个数据进行的描述,面对一些真实的产品的时候,依然具有非常好的能力。人最归有限,面对海量数据的时候,顶级科学家实验室的知识都是不够的。深度学习从数据终学习特征,我们可以看到横坐标是数据规模,纵坐标是数据精度。


    基于统计学习数据规模到一定程度以后,这个性能不再增加了,相对比较平坦,说明统计模型对大数据模型是有上限的。其实这个数据本身对这个性能影响非常大的,刚参加工作的时候,摩托摩拉在手机做语音识别系统,当时做一国语言所用数据大概100小时左右,但是今天做一个国家语言是以10万为单位,数据增长可以完成很多不可能完成的任务。


    这个是我们在过去几年里面,云知声在技术上的演进,2012年云知声成立,发布了免费的开放的语音指标,当时是做到了85%,今天我们说你说100个字里面有15个字错,基本上觉得这个系统是不可用。4年前85%的指标已经是业内最高水准,超过很多上市公司水准,这个是当时我们用统计模型做到了极限。三个月之后,在2012年年底时候把深度学习同样用800小时数据做了深度学习系统,从25%提升到90%,比同行业高了10个点。


    一个算法层面突破会在系统上带到质的超越,带到产业落地。当然后面随着一方面算法不断优化,一方面数据不断迭代,2016年7月份之前我们准确率已经达到97%,中间还有一些其他的特点出来,包括2014年的时候推出了双麦克一个降噪,这些过去在四年里面应用和技术方面做的不断突破。


    这里讲双麦克(音译),因为我代表工学界。我们知道10月份的时候,谷歌发布双麦克,我们看到亚马逊推出的7+1麦克风。他们做到降噪等等,很重要一个点,双麦克风只有一个麦克风,间距不到5公分,这样很便捷应用在各种产品下面。不管这个产品是电视剧还是冰箱等等都可以用。双麦克风再一个低成本下面满足了大部分使用场景,我们有可能以双麦克风为载体,使我们技术尽快走到千家万户,使用户能够使到AI技术,一方面养成用户使用习惯,第二使得更多数据,使得系统更多进一步的优化空间。


    另外,我们对于云理解什么?云不光是声音和文字,还是文字之后我们对它的意思理解,这个够了吗?语言是一个非常博大精深,字面意思不能表示正式意图。还有另外一个进展,提供了云计算,我们有时候从语音到文字,或者从文字不一定看到最准确的意图。举个例子,我对着机器人,我说今天天气真冷,这个字面意思大家知道温度比较低。比如汽车里面能不能把空调调高一度,但是户外说可能需要加外套,这个实际上把字面意思和物理环境,甚至和人的知识汇集在一起,应该是一种综合计算。让机器变的更加智能,对用户需求有一种更加精确的把握。


    这个今天在很多产品里面已经用到了。第二个前面山世光老师说到了,运算能力。我们今天有两种做法,我们以人的大脑做对比,我们今天AI系统一方面缺少很多数据,在语音也好图片也好,跟我们人的大脑无论遗传还是后天是完全不能成比例。我们运算能力,人的大脑是非常复杂一个运算单元,可以用数以亿计的神经元,一个庞大的处理器,每个神经元不一定能够计算。计算服务器搭建成一个计算集群,每个运算单元并不是很强,但是规模很大,把很多运算单元有机结合一起,使得它能完成非常复杂的任务。


    这个图,传统做法我们先构建一个专用训练集群,然后训练出非常好系统之后,把这个系统部署到外网为用户提供智能服务云。这个系统运行一段时间以后,肯定会存储很多数据,把这个数据弄回来做内网和数据开发,是这样一个过程。这个数据不是时时的,也不能及时对很多进行计算。上层是把智能服务和智能学习结合在一起,这样使得集群白天可以服务,晚上可以工作,类似于AlphaGo和李世石下棋的时候,白天下完棋了,李世石非常累回去睡觉了,但是AlphaGo还再不断迭代这样就使我们后台和用户之间实施用户交互。


    通过我们产品服务体系,搭建了一个基于云端新的服务体系,所以需要我们很多场景里面选择一些垂直行业切入,做好这个服务,智能化不断提高。当然这种服务通过云,通过终端,通过芯片方式选择一些行业切入。到今天为止,我们每天平台量已经接近两个亿,这个数据不是特别新,有超过一个亿的终端机服务。12年相比服务增长量在18%以上,前两天看了一个数据,其中一块业务从过去的每天的大概几十万次调用,增长到今天一亿次调用。一方面我们确实今天用户对使用语音习惯变的越来越强烈,第二个方面技术水平越来越高,使得用户愿意用,经常用。在用户和服务之间数据是流动,使得服务变的越来越好,使得数据能够帮助我们开发出更好的水平,只有这样我们所谓人工智能服务真正进入我们的家庭。


    这个是我们大概发展历程,云知声四年公司了,因为我们一直用比较新的思路做一个企业。可能说在中国公司比较深的感触,我们不光在工业界、学术界,跟国外还有一个差距,中国和国外环境不太一样。首先,在座很多朋友我们一般虽然我们受过高等教育,我们不愿意为技术买单,当然这个环境在改变。第二个,技术离商业化比较远,可能商业公司只愿意做后面事情,但是我们一些学术团体只能做前面,中间学术没有往前走,但是商业这一块不愿意往后来,这是中国的现实。


    我们用比较新的做法,比如我们在12年6月份成立,三个月之后发布国内第一个免费语音平台,当时环境下面语音算是一个门槛非常高的技术,当然也有比较不错的议价能力。我们认为人工智能其实它的生存与发展不依赖于收多少费用,而是多少用户,和多少数据。正是因为我们认识到这个数据对技术驱动重要意义,我们三个月以后发布国内第一个免费开放平台,付出代价是成本。我们团队管这个平台,我们获得了用户的口碑,用户数据,这些能够帮助我们引擎不断提升和迭代。


    这是我们再一个模式上的创新,在技术方面我们算国内比较早的把深度学习应用到工业界里面。在12年12月底把深度引擎服务给厂商。最最值得我们创业公司去分享一点,在四年里面通过我们努力,探索怎么把技术变成产品,而且这个产品能够给用户创造价值,而且还能在夹缝中求生存。我们看到人工智能领域不光说国内巨头,都在做。我们做创业公司,无论语音还是图象还是文本,这里面哪里是你的优势,让你飞的更高。我们认为选择比较适合我们的路,今天选择一些方面,我们恰恰形成我们先发优势。


    第一,通过商业探索塑造了时间壁垒和技术壁垒。第二,大家谈概念的时候,云知声芯片产品已经在市场上开卖。人工智能非常高大上,但是人工智能需要落地,需要我们在座企业界朋友们,不光追求技术的鼎天,我们还要做好商业的落地。这个是我们的智力方案,基本上是云端芯,可以灵活的组合,某些手机APP厂商可能只需要一个AX(音译)不够,还需要本地化的服务,就是云加端。我是一个机器人离的很远的时候,可以通过声音打断他,唤醒他,就需要把芯片组合到里面。


    这个今天完全不是概念,这个已经产品化一些东西。比如说左边像一个球一样,美的发布第一款壁挂式空调,可以全程远距离交互。格力空调是亲自给苗部长亲自演示,获得今年产业最高奖。右边是孩儿空调,去年开卖的乐视电视。这里面现象比较容易,但是还是比较难的,大家体验过的在手机端上的云识别之外,很多问题距离比较远的时候,声波在衰竭怎么办?我距离比较远不可能让人按纽,能不能通过声音唤醒他。还要考虑是不是符合低成本标准,低功耗标准。


    我们大家知道,我们能够看到用这种技术做交互的公司和厂商少之又少。我们大家看到只有亚马逊那个AlphaGo,我们一方面看到未来,我们一方面看到这个技术难度非常大。这个车里面,后视镜、导航仪等等,在车里面做到全程语音交互,手不用参与,眼睛不用参与。这个也是大概做的非常不错,这个是我们去年和中国的最好医院,北京协和医院合作,把云技术做进了大家都认为很封闭的医疗系统,而且这个今年在协和医院推广。今天医生不再需要用手用病例,这个可以提高效率。好医生在中国是非常稀缺的资源,医生每天平均节约3.8个小时,增加商业价值。


    这个我们在商业方面取得的成绩,我们除了讯飞百度之外,我们是国内第三大语音服务提供商。今天我们国内很多非常Topo医院已经开始使用云知声服务。云知声通过我们的技术,通过我们的努力,使得我们一起智享未来。我们非常看重人工智能技术,我相信人工智能会在未来像水电跟我们一起无处不在。最好的技术能够成功,离不开这个过程当中每一点每一滴,云知声成为水电煤之前,通过我们努力改变我们的生活,改变我们的车、医疗,让我们相信人工智能就在我们身边。谢谢大家!

本文来源于"中国人工智能学会",原文发表时间" 2016-10-26 "

网友评论

登录后评论
0/500
评论
沉默术士
+ 关注