1. 聚能聊>
  2. 话题详情

达摩院黑科技首次亮相,语音让生活变的更简单!

昨天,据媒体报道上海申通地铁集团与阿里巴巴、蚂蚁金服联合宣布,三方达成战略合作,签约仪式上,阿里巴巴iDST最新研发的多模态智能语音交互技术首度惊艳亮相。

voice_ticket

传统的自然语音交互主要在家居、办公室等比较安静的环境下工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。iDST首次创新研发了基于深度学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态融合技术,能够自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性难题。其次市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。而这次iDST通过“语音+视觉”多模态融合技术,能够自动检测用户走近设备的行为,主动发起交互。此外,通过这一技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。

zaoyin

下一代人机交互,是达摩院首批公布的重点研究方向之一(其他还包括:量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等)。
这套多模态智能语音交互解决方案是由数个子系统组成的:
1、大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;
2、计算机视觉子系统:通过光学摄像头,实现人脸,特别是眼睛、嘴唇等的检测、跟踪和动态分析;
3、多模态融合子系统:通过语音+视觉融合,实现对目标用户的精确定位及语音提取;
4、远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。

此次的技术成果,将为自然人机交互技术打开一片全新的世界。对于传统的语音交互技术,强噪音的公众场合一直因为其技术难度大而难以实现产品级落地。而未来这项技术进入人们的生活中,普惠大众。

那么大家来聊聊

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?
2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?

参与话题

奖品区域 活动规则 已 结束

285个回答

2

1597109630226743 复制链接去分享

在中国很少有人愿意在公共场合面对机器大声说出自己分目的地,要买几张票,因为这不仅是关系到隐私的问题,主要原因是和机器交流会让人觉得很别扭,就像托福机考一样,不怎么看好这个更新

吴楠. 回复

可是打车的时候,大家都会告诉司机自己要去哪不是吗?

吴楠. 回复

同时以前公交车有售票员的时代,大家也是在车上告诉售票员,我要去哪,几张票。

1019812953685394 回复

主要还是不好意思说出口吧。我觉得

小鸣 回复

相当于替代人工售票客服

liunian123 回复

当成为潮流就ok了。

木青山 回复

赞同

drizzt352 回复

赞同...特别是地铁买票排在我身后的人看我目的地的时候虽然没什么,但是自己浑身不自在

eegsmart 回复

最好在私密空间用,公共空间肯定会不方便

志大才疏 回复

习惯了就好了

志大才疏 回复

不过不需要到指定地点去,手机说下,产生个电子票就好,或者直接关联的身份证

评论
0

浪单快手 复制链接去分享

假设我不知道路线,请问我怎么语音,并且地铁售票只支持现金

吴楠. 回复

这次展示的语音购票机里就包含了模糊搜索的功能,例如,你想去东方明珠,但是地铁并没有这站。你只要对它说:我想去东方明珠。他会告诉你,距离东方明珠最近的地铁站是陆家嘴,距离东方明珠190米,票价3元。然后支付宝扫码支付。

1019812953685394 回复

挺方便的

灰度认知 回复

打CALL

aunome 回复

同意,在不熟悉站点的情况下,我还是得先去查看轨道图之后才能转过来对着机器人说我要去哪里,几个人。

付韬 回复

当你站在达摩院研发的智能语音购票系统前,说出你的目的地,然后你说地铁系统只支持现金结算是多么的无知啊。同时也是多么缺乏预见性!如果这么一点点的问题你放在3年前说,可能还有人信,今天你再说,只能说你很。。。

评论
3

夏之冰雪 复制链接去分享

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?
每天早晨醒来,我都要对着我的iphone喊上几遍:
“Hi Siri,今天天气如何?Hi Siri,今天天气如何?Hi Siri,今天天气如何?”
希望阿里在语音识别方面,一定要比苹果厉害,iphone的语音识别太差了,每次都要说好几遍才能听懂。

在识别精准的前提下,希望可以智能购物,这样对于不太会用手机淘宝的长辈来说,买东西会方便很多,直接语音想买什么,人机交互帮助筛选尺寸啊、颜色啊等等,方便购物。

还有汽车的导航,由于现在语音识别一般,我看很多司机都是手动输入去哪里的,要是能语音,也能提升很大的便利。

买车票、买火车票、买门票,这些窗口类服务,都可以简化流程。还有去医院,先对着机器人简单说一下身体哪里不舒适、怎么不舒适,机器人自动识别,告知你去挂哪个科室的门诊。

饭店的点餐系统,现在都是服务员拿着小本本、或者一个手机一样的东西,用户说一个,服务员记录一个。以后直接语音,来5串羊肉串,微辣!

2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?
当然是用户体验为核心了!

比如,问天气的时候,不但告知天气,还可以直接推荐穿什么衣服合适。也就是说,我们把自己的所购买衣物也都提前录入到系统里了,直接帮我们智能搭配。

再比如,地铁购票语音识别,识别去哪里以后,可以追问用户是希望速度快还是少换乘。

总之,未来的人机交互,就是不但解决用户的问题,同时帮助用户完善他的需求,并扩展更多。这就需要更多的物品联网,更多的数据联网。

湘行智慧 回复

运用到自助售卖机上应该也挺方便的,“老板我要来杯咖啡”,节省了按键选物品的时间

评论
1

taole 复制链接去分享

教学语音 如果我问个问题 AI 能回答就好了

蓝色大海, 回复

我想象有一种这样的VR,戴上它之后,虚拟世界与现实世界没有什么不同,然后想做什么,只需要通过大佬的三维空间来做,例如,我想找一个发动机,先在大脑里面算出来,然后在虚拟世界做出来,如果可行,再拿到现实世界来

评论
0

20427609 复制链接去分享

我要定做一个app

灰度认知 回复

怎样的APP?

国坤云2099 回复

全渠道新零售 新服务app

评论
2

amonw 复制链接去分享

畅想未来,早上起床通过语音控制,播放视听看下今天天气,今天的重要新闻事件,出门随便说句去哪就可以告诉我当前路况,加上可穿戴设备,彻底解放双手

1

水灵儿 复制链接去分享

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?
像天猫精灵那样,语音搜索,订餐等等

2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?
未来的人机交互应该是方便大家的,出门不需要带身份证,手机,钱(貌似现在也不咋带了),商场刷脸买东西,买火车or汽车票

水灵儿 回复

求包包(づ。◕‿‿◕。)づ

唐诗三摆手 回复

天猫精灵不错的

评论
0

nanguodeshu 复制链接去分享

最好还能识别肢体语言

逍遥珺1 回复

人体的动作识别相对于语音识别应该会简单一些

评论
1

1084417034240632 复制链接去分享

春运的问题还没解决,订不到票会尝试着中转,但是很多网站只支持一个中转站,两个或者以上的中转站就不能自动实现了

0

1519016177959754 复制链接去分享

修了十几年的车负债10万。2018我要做一个国内最牛逼的汽车美容快保上门服务售后的小程序或APP(客户线上购买明码标价的商品进行下单)+(专业技师线下接单上门服务)=客户结算评价《每月下单服务次数收入大数据》无论投资商还是股东一目了然随时手机可以看到每月/年 分红额度

天醫 回复

好啊
期待

评论
1

夏沫烟雨凡 复制链接去分享

我认为这个技术主要的意义在于:1.满足了人们出行的方便,比起同样是智能的乘客手动选票,更加快捷。2.解放了售票员(劳动力)
但还有一个问题,出行的隐私问题。
我认为可以在排队的两旁安置二维码之类的东西链接智能系统和手机,这样人们在手机旁小声一说就能被接收到,直接付款。排到队伍最前面的时候直接让自己的付款码之类的东西被智能系统一扫 ,开出火车票,更简洁。

1

巴洛克上校 复制链接去分享

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?

火车票,飞机票,景点机器人、大厅咨询服务机器人...好多但就目前的语音即使识别的好也未必能完全理解我们的问题,只能说是单一的服务数据量还是不太够.

2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?

与机器交谈和人一样可以理解各种问题,解决问题,或者执行命令、再或者根据主人的喜好习惯算出下一步主人要干什么事情、提前做好,当然现状这一切都离不开数据,未来是否能有一种新的模式来实现这些还是很清楚!

VIP

1

snanby 复制链接去分享

航班信息,通过语音输入,判断用户当前选择的目的地航班最优航线以及最低价格,通过语音及时反馈给用户,在各个公共场合,用于查询各种公用设施的位置,也可以通过语音控制。有时候手写会不知道目标具体名称,而通过分析用户描述可以获得更多的信息,从而解析出客户需求。

0

myth_wm 复制链接去分享

门禁系统用语音

snanby 回复

已经在用了

评论
1

shawn.ss 复制链接去分享

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?

如果见过新手母亲抱着孩子处理各种事情的场景,就不会疑惑语音的重要性了,基本上所有事情都靠“吼”,包括开门
新手司机开车的时候也差不多
打游戏的时候也差不多
综上,你手不好使用或被占用的场景,都是语音超级方便的场景

2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?

“点餐,“-----基本要求
黑椒牛柳面,不要洋葱,牛柳嫩一些,7分熟就好,多加点盐如果可以,少放点胡椒但口味要重一点”-----高端要求
“对了,我的孩子穿着灰衣服,在外面玩,饭做好了叫他进来吃,”------超高端要求
“孩子吃完了,帮我送到xxx路xx号院门口,他会自己回家的”-------超超高端要求
“我要开会先走了,我和你们老板很熟,饭钱先挂账哈,”-----这才是终极要求^_^

1

北方的郎 复制链接去分享

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?
导购,点餐,语音拨号,电视换台,自动会议纪要(语音识别+AI实现关键内容抽取)等等

2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?
未来的话就畅想一下吧。
接收
1,沿用智能语音、全息投影
2,与人类的视觉、听觉神经直接对接,投映到人类的大脑。
输出
1,语音,手势,眼神等
2,未来可能直接连接人类大脑,直接脑电波驱动。

1

笨笨的粽子妞 复制链接去分享

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?
去医院看病时,第一个难点就是挂号。虽然现在有很多网上预约挂号系统,但是对于很多中老年人,还是更偏向于现场挂号。因此,如果对于自助挂号机,如果有智能语音挂号,可以让他们更迅速便捷的挂号看病。
在日常家居生活中,老年人和一些行动不便的人群,在看电视等过程中,会有一定的困难,那么如果对日常家居生活中,电视机调台等功能提供智能语音辅助,会给他们的生活带来很大的便利。

2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?
今年双十一推出的天猫精灵,其实给生活中带来了很多乐趣,虽然很多功能还不是很完善,但是体验感还是不错。所以对于未来人机交互的感想的话,更希望在语音沟通时,用其他方式替代唤醒词。因为在使用天猫精灵的过程中,每次沟通都需要唤醒词,以至于每次交流是相对独立的,无法进行连续性交流。

1

吟游诗人 复制链接去分享

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?
商场导购,车库寻车,但凡是固定模式的一问一答的情况下都能使用语音吧。再比如智能家居,脑补一下可以根据说话操控所有家具的情形,酷毙了。
2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?
未来我认为是会往全息投影方向发展,这实际上在数十年前就已经被作为一个设想了,但是直到最近才取得突破性的进展。未来人们的手机可以会变成一枚戒指,或者手环,当需要使用的时候,可以直接在面前投影出来。或者又如三体所说,以后一切都是可触摸的电脑,包括墙壁等等,想想也不错啊。
最理想的是有个装置可以监测脑电波,大脑直接发出命令然后对某些绑定的产品进行操作,这个可能涉及人伦,隐私等等了吧,但是理想化一点的话还是很好的

1

1281712654391939 复制链接去分享

菜鸟一枚

1

sqtnbyy 复制链接去分享

1. 这次语音用在了地铁售票上,那么还有哪些场景是适合用语音,或者用了语音会更方便?
驾车,自然是。

2. 畅想下未来的人机交互会是什么样,或者大家心目中的下一代人机交互是怎样的?
我想应该是语音、触屏、甚至键鼠相结合的方式。

14