使用科大讯飞语音转文字的服务进行电话录音分析

简介:

需求

合规性质检:1)设定规则,实现自动质检,自动打分;2)如VOC文本质检可与语音文字进行匹配,自动判断是否合格;3)新媒体文本可自动质检4)可识别异常录音(指定标准外);5)诉求记录与语音内容是否可匹配,检测内容是否一致(关键词);6)系统自我检测,对需要质检员校准的分析进行识别;7)特定内容判断是否合规(如蒸箱拨测内容)。

分析功能

(1) 对指定的录音进行制定规则的分析(如交互时长)。
(2) 对指定的某类型录音记录,自动找根因(如重复来电、不满意分析、满意、外拨分析,系统自我检测,对需要质检员校准的分析进行识别)。
(3) 通过语音、语调、语速等识别客服和客户的情绪和态度。
(4) 语音语调的范围(用来匹配哪种语音语调的客户满意度高)。
(5) 筛选录音时长,对过长的录音进行预先分析。

我们solution proposal的文档里打算用科大讯飞的service,但是他无法满足3和4这两个requirement。
我对可达讯飞的service做了简单的测试: 其工作原理是通过讯飞的SDK将本地语音文件上传到讯飞的server上,server通过http response以json格式返回给consumer. 附件是我用于测试的一个语音文件,我说的话是”测试一下Netweaver对于并发请求的响应性能”.

测试结果

(1) 所有中文均能成功转成文字; 但英文Netweaver的语音转换成了Net ball
(2) 智能分词也能按照期望工作,比如“测试一下”成功地分词成了“测试”和“一下”。



本文来自云栖社区合作伙伴“汪子熙”,了解相关信息可以关注微信公众号"汪子熙"。

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
前端开发 API 异构计算
构建一个语音转文字的WebApi服务
构建一个语音转文字的WebApi服务
88 0
|
10月前
|
语音技术
阿里云语音识别服务提供了三个版本的录音文件识别
阿里云语音识别服务提供了三个版本的录音文件识别
357 1
|
自然语言处理 监控 BI
智能语音交互控制台项目服务用量查看Quick Start
智能语音交互(Intelligent Speech Interaction)是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互功能。适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、司法、电商等多个领域均有应用。目前云上的许多企业客户在使用该服务后,往往有想查看具体某个项目的消费账单等需求。这一需求,目前是无法直接查看到的。但是在控制台监控统计功能页可以分项目查看调用量。再结合费用中的账单明细能计算下具体的消费。本文以12月的项目调用为例,为您介绍如何查看监控报表页面项目用量详情。
175 0
智能语音交互控制台项目服务用量查看Quick Start
|
自然语言处理 人机交互 语音技术
阿里云智能语音交互中一句话识别服务的PythonSDK调用
智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景,一句话识别服务可以对一分钟内的短语音进行识别,适用于对话聊天,控制口令等较短的语音识别场景,此篇文章将介绍此服务的pythonSDK简单使用
604 0
阿里云智能语音交互中一句话识别服务的PythonSDK调用
|
自然语言处理 人机交互 语音技术
阿里云智能语音交互中录音文件识别服务的简单使用
智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景,识别是针对已经录制完成的录音文件,进行离线识别的服务。录音文件识别是非实时的,识别的文件需要提交基于HTTP可访问的URL地址,不支持提交本地文件。此篇文章简单介绍下javasdk的调用
839 0
阿里云智能语音交互中录音文件识别服务的简单使用
|
自然语言处理 人机交互 API
阿里云智能语音交互中长文本语音合成服务的restful api 中python3调用
智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景,长文本语音合成功能提供了将超长文本(如千字或者万字)合成为语音二进制数据的功能,此篇文章简单介绍基于python的简单调用
930 0
阿里云智能语音交互中长文本语音合成服务的restful api 中python3调用
|
自然语言处理 视频直播 人机交互
阿里云智能语音交互中实时识别服务的简单使用
智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景,实时识别服务对长时间的语音数据流进行识别,适用于会议演讲、视频直播等长时间不间断识别的场景,此篇文章将介绍此服务的简单使用
1300 0
阿里云智能语音交互中实时识别服务的简单使用
|
自然语言处理 Java 人机交互
阿里云智能语音交互中一句话识别服务的简单使用
智能语音交互产品基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景,一句话识别服务可以对一分钟内的短语音进行识别,适用于对话聊天,控制口令等较短的语音识别场景,此篇文章将介绍此服务的简单使用
976 0
阿里云智能语音交互中一句话识别服务的简单使用
|
自然语言处理 Java 人机交互
阿里云智能语音交互--实时语音识别服务Java SDK Quick Start
智能语音交互(Intelligent Speech Interaction)是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互功能。适用于智能问答、智能质检、法庭庭审实时记录、实时演讲字幕、访谈录音转写等场景,在金融、司法、电商等多个领域均有应用。实时语音识别服务可对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。本文将使用Java SDK演示实时语音识别服务的快速调用以供参考。
625 0
|
JSON 自然语言处理 测试技术
使用科大讯飞语音转文字的服务进行电话录音分析
使用科大讯飞语音转文字的服务进行电话录音分析
使用科大讯飞语音转文字的服务进行电话录音分析

热门文章

最新文章