阿里智能语音平台助力人机交互

简介: 在云栖大会上,天猫精灵幕后团队——人工智能实验室的聂再清为大家介绍了语音交互平台的运作机理和完善方法。在智能化普及程度逐渐加深的当代,人机交互也就成为了丞待解决的问题。为了解决这一难题,阿里巴巴的人工智能实验室对智能语音交互平台进行了深入研究和全面优化。

摘要:在云栖大会上,天猫精灵幕后团队——人工智能实验室的聂再清为大家介绍了语音交互平台的运作机理和完善方法。在智能化普及程度逐渐加深的当代,人机交互也就成为了丞待解决的问题。为了解决这一难题,阿里巴巴的人工智能实验室对智能语音交互平台进行了深入研究和全面优化。

01

以下为精彩视频内容整理:
优化人机交互下阶段的目标

人机交互平台的发展经历了字符阶段、图像阶段、触屏阶段,而触屏阶段的普及在带来便利的同时营业产生了诸多不便,“低头族”的产生便是最好的证明。人类的需求是永不止步的,需要将人的眼睛拘束于操作界面的便利已不再是便利。语音操作系统可以让人们通过简单的发出指令来获取贴心的服务,使人们不再需要投入眼力和手力,所以智能语音交互平台的普及是必然的。

NR__57C8U_C86P6T_7HX

想要使智能语音交互平台更加地贴心,首先要解决的便是要让其拥有正确的理解能力,人工智能团队意识到了这个问题,并制定出了详细的计划。他们认为,革新人机交互方式是解决问题的有效途径。智能语音交互平台不仅仅需要计算能力,同时也需要知识、推理能力、行动能力、感知能力、甚至认知能力。使天猫精灵的智能语音交互平台拥有这些能力,便是人工智能实验室日后努力达成的目标。

需要解决的具体问题

天猫精灵的语音交互平台,作为行业的代表,已拥有许多贴心的功能来满足大众日常需求,而在满足大众需求的过程中,也发现了一些具体问题:

  1. 智能语音交互平台的推广需要各行各业的努力与合作。要想使智能语音交互平台更加深入大众的生活,为大家带来便利,就必须要做到生活中各个地方都可以运用它。例如点外卖就需要订餐软件或餐厅的合作,预订飞机票就需要旅游软件或航空公司的合作,查询天气就需要气象部门的合作等等。所以想要完善语音交互平台的功能,就必须获得各行各业的支持,这便是需要解决的问题之一。
  2. 语音交互的安全问题。例如当使用天猫精灵的客户需要完成支付口令时,由此带来的安全问题也是需要解决的。不能单纯地通过语音的内容便提供服务,也需确保服务于正确的人。为了辨别请求服务的人,实验室特别在天猫精灵的语音交互系统里添加了声纹识别功能,以此来确保将正确的服务给予正确的人。
  3. 自然语言的理解。这个问题是关键的,聂再清介绍了详细的解决方案。意图识别是天猫精灵提供服务的关键,必须由语音交互平台完成解析使用者语音指令的主要意图之后,才能进行正确的服务。以查询天气为例,客户发出查询天气的指令并不是统一的,但其表达的目的是唯一的,就是要查询天气。

03

交互平台需要有识别多种语句的能力,提取出客户要表达的正确意思,并且准确地执行,给客户正确的回复。这其中可能需要调用第三方的API,并且定下对话策略。指令的理解难点在于人说话的多意性和歧义性,而这两个特性起因在于人日常说话是很随性的。还是以查询天气为例,可以说“明天的天气怎么样”,“我想知道明天的天气”,“明天的风大不大”等等,而这些指令的意思却是同一种,那就是查询天气。语音交互平台需要有识别一种指令多种表达的能力,也要有能区分意思相近指令区别的能力。解决这些问题的途径,就是需要添加语料,这并不简单。

4SU0_J6AHGQSZ_QM_16_D5

客户是不可控的,我们永远没法预测客户会以什么样的语言形式表达出一个指令。请专家或专业人员来解决这件事,代价是昂贵的,而问题又是必须解决的,所以提出了开发人员提供数据的解决方案,也就是自定义技能添加语料倒句和模板。具体方案为对语料等了解不深的开发人员,可以提供类似笑话集等数据;对语料略有了解的开发人员由部门提供语句,开发人员负责标注语料并添加;而关于涉及到客户隐私之类的语料不便于开发人员存储,以免泄密,所以由人工智能的记忆功能来解决。当客户的语料不明显或不存在时,平台将通过交互式构建可替换词词典和语料模板的方式,定于或发掘语料。具体来说,就是通过互联网查询指令中与网络库模板相近的语料,过滤无意义或者无用语料,提取语音不明语料并用明确的语料替代。这个操作需要建立可替代词词典并在日后的使用中逐渐完善这一词典。比如在客户使用时,提取客户语料后,将之与词典里的语料相匹配,当意义确实相同时,不但可以完成替代,还可以把客户的语料也加入词典。这种滚雪球的方式将会使词典越来越丰富,语音交互平台理解客户意思越来越准确和快速。

如何避免智能语音交互笨拙

在最后,聂再清又总结了自己对于如何避免智能语音交互笨拙的一些看法。第一是要做垂直应用,开发团队不要抱着能把所有问题都解决的想法,因为技术的先进程度还不足以实现,所以要专注于垂直应用;第二是用户的期待要符合实际,这就需要专业人员的讲解,告诉用户什么是可能的,避免客户期望值过高,失望过大;第三是知识图谱和用户画像,知识是正确使用语音交互平台的前提,而用户画像指的是对用户的了解,这对平台的正确应用也是必不可少的。如果语音交互的生态系统能招募广大开发者一同建造,那么显而易见的,系统的建成将会事半功倍。

LW_DQQ2KHN_5BHD_IY1FD

人工智能是为了帮助人而设计的,而不是代替人,秉承这一理念,阿里将会继续努力普及人工智能,为人们带去便利。

本文由云栖社区志愿者小组林一木整理,毛鹤审校。编辑:郭雪梅。

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
3月前
|
API 语音技术
如何选择适合自己的智能语音自学习平台
如何选择适合自己的智能语音自学习平台
30 0
|
3月前
|
人工智能 自然语言处理 语音技术
智能语音自学习平台有哪些
智能语音自学习平台有哪些
41 0
|
4月前
|
前端开发 JavaScript 语音技术
|
4月前
|
运维 API 语音技术
Python智能语音识别语翻译平台|项目后端搭建
Python程序设计基础,第三方库Django、requests、hashlib、pyttsx3等的使用,百度API语音识别业务接口、文本朗读业务接口、翻译业务接口的传入。
117 0
Python智能语音识别语翻译平台|项目后端搭建
《阿里云总监课第二期——智能语音自学习平台》电子版地址
阿里云总监课第二期——智能语音自学习平台
76 0
《阿里云总监课第二期——智能语音自学习平台》电子版地址
|
JSON 编解码 自然语言处理
阿里智能语音交互文档操作教程
ASR :语音识别服务,提供语音转文本服务。 TTS :文本转语音服务,提供将文本转为普通话语音的语音合成功能。 NLU :自然语言理解服务,提供自然语言处理功能。
1289 0
|
机器学习/深度学习 存储 人工智能
6年前布局,如今阿里智能语音成行业第一,我们的快递、客服都离不开它
2014年,阿里巴巴悄悄启动了智能语音项目,6年过去了,它长大成了国内第一。国际权威调研机构IDC公布《中国AI云服务市场半年度研究报告》,阿里云云上AI表现出色,其中语音AI在智能语音、对话式AI两个领域拿下市场份额第一,市占率分别为44%和57%。
1663 0
6年前布局,如今阿里智能语音成行业第一,我们的快递、客服都离不开它
|
人工智能 语音技术 云栖大会
人人都能做人工智能专家!阿里云发布智能语音自学习平台
7月18日,阿里云正式发布智能语音自学习平台公有云产品,将为用户提供一键式语音智能自助优化方案,使得语音识别优化不再依赖于语音供应商的专家服务,让不懂技术的人员也可以快速提升业务的识别准确率,以满足业务需求。
2347 0
|
人工智能 语音技术 云栖大会
阿里云发布智能语音自学习平台,零基础训练人工智能模型
业务人员甚至门卫大爷也能训练人工智能?曾经只出现科幻电影中的一幕真的发生了。7月18日,阿里巴巴机器智能技术实验室宣布在阿里云正式发布智能语音自学习平台公有云产品,突破性地提供一键式语音智能自助优化方案,使得语音识别优化不再依赖于语音供应商的专家服务,让不懂技术的人员从此也可以快速显著提升自己业务的识别准确率满足业务需求。
4912 0
|
人工智能 定位技术
荣威RX5与阿里智能语音的“修行”故事
本文由阿里巴巴iDST智能语音交互总监、资深专家鄢志杰在2017年12月19日北京云栖大会分享。百箱大战,打开了智能语音人机交互模式的新应用,也把语音交互技术推到了风口浪尖上。荣威RX5互联网汽车8月份销量2万辆的优异成绩背后,阿里智能语音交互团队又做出了那些贡献?又有那些业务逻辑和经验可以分享?下面就来听听鄢志杰来讲述。
2493 0