备案控制台

开发者社区

开发者社区大数据文章正文

9月5日云栖精选夜读：智能语音交互：阿里的研究和实践

2017-09-05 3617

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

数据管理 DMS，安全协同 3个实例 3个月

简介： 云栖TechDay40期，iDST智能语音交互团队总监智捷带来智能语音交互的演讲。本文主要讲解了语音识别的核心组件，语音识别准确率以及影响准确率因素，还分享了iDST智能语音交互以及阿里云的对外输出。

云栖TechDay40期，iDST智能语音交互团队总监智捷带来智能语音交互的演讲。本文主要讲解了语音识别的核心组件，语音识别准确率以及影响准确率因素，还分享了iDST智能语音交互以及阿里云的对外输出。

热点热议

智能语音交互：阿里的研究和实践

作者：场景研读发表在：云栖TechDay

数据管理DMS发布Memcache版，支持Memcache主从实例登录和管理

作者：数据管理dms 发表在：云知

数据管理DMS发布移动版，随时随地管理云端数据

作者：数据管理dms 发表在：云知

知识整理

利用阿里云容器服务实现自定义节点伸缩

作者：必嘫发表在：阿里云容器服务 >> 最佳实践

大数据时代结构化存储云HBase技术架构及最佳实践

作者：场景研读

20张详解前端开发工程师思维导图谱

作者：oudahe

杂谈大数据

作者：善思变者

经典故障分析 - ASSM引发的索引争用与 enq HW -contention 等待事件

作者：技术小能手发表在：数据和云

美文回顾

spring-boot+aop实现多数据源切换

作者：逆转未来

软件开发行业_产品经理的痛点_简单分析

作者：木森·

历程剖析：阿里云自研HTAP数据库的技术发展之路

作者：场景研读发表在：云栖学习小组

美柚与MaxCompute数据同步架构说明

作者：meetyou_九戒发表在：阿里巴巴大数据 —玩家社区 >> MaxCompute（原ODPS）

Spring IoC 学习(4)

作者：魄魑

JetBrains TeamCity 实现简单CI

作者：nurmemet

闪银奇异安全负责人：互金行业安全建设的四个心得

作者：技术小能手发表在：阿里云安全

用AI和MCTS实现智能行程设计的思路

作者：止水

往期精选回顾

9月4日云栖精选夜读：从 Apache RocketMQ 和 Kafka 看 Topic 数量对单机性能的影响

9月1日云栖精选夜读：阿里云数据库掌门人褚霸:骑行与数据人生

8月31日云栖精选夜读：一张图读懂阿里云网络产品：共享带宽

8月30日云栖精选夜读：Nodejs进阶：使用DiffieHellman密钥交换算法

8月29日云栖精选夜读：简单聊聊VPC和SDN/NFV

文章标签：

智能语音交互

智能语音交互

数据管理

云原生大数据计算服务 MaxCompute

大数据

容器

安全

数据库

分布式计算

关键词：

智能语音交互阿里

智能语音交互实践

智能语音交互研究

智能语音交互阿里研究实践

相关实践学习

一键创建和部署高分电影推荐语音技能

本场景使用天猫精灵技能应用平台提供的技能模板，在2-5分钟内，创建一个好玩的高分电影推荐技能，使用模板后无须代码开发，系统自动配置意图、实体等，新手0基础也可体验创建技能的乐趣。

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

yq传送门

目录

相关文章

刘悦的技术博客

|

3月前

|

人工智能达摩院并行计算

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

君不言语音识别技术则已，言则必称Whisper，没错，OpenAi开源的Whisper确实是世界主流语音识别技术的魁首，但在中文领域，有一个足以和Whisper相颉顽的项目，那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型，它具有高精度、高效率、便捷部署的优点，支持快速构建语音识别服务，最重要的是，FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能，也就是说，它不仅可以实现语音转写，还能在转写后进行标注，一石二鸟。

刘悦的技术博客

269 0 1

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

刘悦的技术博客

|

3月前

|

机器学习/深度学习自然语言处理 PyTorch

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr，但是经过中文特殊优化的Whisper就未必了。

刘悦的技术博客

136 0 0

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

皮牙子抓饭

|

10月前

|

API 语音技术

构建智能语音助手应用：语音识别和语音合成的实践

智能语音助手应用正变得越来越流行，它们能够通过语音与用户进行交互，为用户提供便捷的服务。在本文中，我们将介绍如何构建一个智能语音助手应用，包括语音识别和语音合成的实践。我们将使用现代化的语音处理技术和开源工具来实现这个应用。

皮牙子抓饭

169 0 0

皮牙子抓饭

|

10月前

|

API 语音技术开发者

构建智能语音助手应用：语音识别和语音合成的实践

智能语音助手应用正在成为现代应用程序的热门趋势。语音识别技术使应用能够理解和解释用户的语音输入，而语音合成技术则将计算机生成的语音转化为可听的声音。本文将介绍构建智能语音助手应用的实践方法，并展示如何使用开源工具和API进行语音识别和语音合成。

皮牙子抓饭

229 0 2

心随而动

|

11月前

|

机器学习/深度学习人工智能自然语言处理

语音识别与Python编程实践

语音识别与Python编程实践

心随而动

352 0 0

技术小达人

|

11月前

|

机器学习/深度学习达摩院前端开发

INTERSPEECH 2022论文解读｜针对多方会议场景下说话人相关语音识别的对比研究

INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。 ‍本文主要对比研究三种SA-ASR的方法，通过对说话人日志、语音分离和语音识别模块的耦合，在M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验，有效地降低了说话人相关字错误率(SD-CER)。论文已被INTERSPEECH 2022接收。

技术小达人

320 0 0

刘悦的技术博客

|

11月前

|

人工智能 Shell 语音技术

极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践

业界良心OpenAI开源的[Whisper模型](https://v3u.cn/a_id_272)是开源语音转文字领域的执牛耳者，白璧微瑕之处在于无法通过苹果M芯片优化转录效率，Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本，它具有无依赖项、内存使用量低等特点，重要的是增加了 Core ML 支持，完美适配苹果M系列芯片。 Whisper.cpp的张量运算符针对苹果M芯片的 CPU 进行了大量优化，根据计算大小，使用 Arm Neon SIMD instrisics 或 CBLAS Accelerate 框架例程，后者对于更大的尺寸特别有效，因为 Accele

刘悦的技术博客

366 0 1

Matlab科研工作室

|

机器学习/深度学习传感器算法

【语音识别】基于Morlet小波变换的滚动轴承故障特征提取研究附matlab代码

【语音识别】基于Morlet小波变换的滚动轴承故障特征提取研究附matlab代码

Matlab科研工作室

85 0 0

go-Jack

|

Java 语音技术开发工具

JAVA对接阿里语音识别引擎

JAVA对接阿里语音识别引擎

go-Jack

827 0 0

AI_WX_3307623172

|

JSON 编解码自然语言处理

阿里智能语音交互文档操作教程

ASR ：语音识别服务，提供语音转文本服务。 TTS ：文本转语音服务，提供将文本转为普通话语音的语音合成功能。 NLU ：自然语言理解服务，提供自然语言处理功能。

AI_WX_3307623172

1287 0 0

热门文章

最新文章

Hotword模型在语音识别系统中定义为能够识别特定关键词或短语（也称为唤醒词）的模型

基于Qt的简易语音识别与合成系统设计与实现

Modelscope-FunASR是一个开源的语音识别框架

语音识别技术的原理与应用

【83行代码获奖代码】高中生@青藤木子耗费一周给妈妈编写了一款语音识别APP

从声学模型算法角度总结 2016 年语音识别的重大进步

人机大战机器胜！这次是智能语音识别技术！

人机交互新进展：LFR-DFSMN语音识别声学模型介绍

HaaS云端一体智能语音交互方案

如何用一套语音识别系统实现多语种混合自由说？

语音识别技术的原理与应用

Modelscope-FunASR是一个开源的语音识别框架

语音识别与处理：Python 应用

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

毕业设计|基于STM32单片机的语音识别控制智能停车场设计

长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测（VAD）

要将`modelscope-funasr`的输出从`Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx`更改

FunASR项目支持实时语音识别

在使用ModelScope FunASR进行语音识别时，如果没有文本输出

（保姆教程及高级玩法-自定义数据处理）微信同声传译插件-语音识别

相关课程

更多

达摩院智能语音交互 - 人机对话技术浅析

达摩院智能语音交互 - 声纹识别技术

阿里巴巴智能语音交互技术与应用

达摩院智能语音交互 - 语音识别技术

达摩院智能语音交互 - 语音合成技术

跟阿里云技术专家学习智能推荐系统

相关电子书

更多

阿里云总监课第二期——Neural Network Language Model在语音识别中的应用

阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用

智能语音交互：阿里巴巴的研究与实践

相关实验场景

更多

使用函数计算部署通义千问大模型实现AI对话

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

基于通义千问X函数计算部署AI助手

基于阿里云DeepGPU实例，让AI带你畅玩杭州

倚天大数据电商数据分析快速实践

基于阿里云DeepGPU实例，用AI画唯美国风少女

下一篇

阿里云oss简介和使用流程