备案控制台

开发者社区

开发者社区开发与运维文章正文

1月15日云栖精选夜读 | 重磅公开！阿里语音识别模型端核心技术，让你“听”见未来

2019-01-15 3109

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里妹导读：语音识别技术作为人工智能技术中的重要组成部分，成为影响人机交互的核心组件之一，从各种智能家用IoT设备的语音交互能力，到公共服务、智慧政务等场合的应用，语音识别技术正在影响着人们生活的方方面面。

阿里妹导读：语音识别技术作为人工智能技术中的重要组成部分，成为影响人机交互的核心组件之一，从各种智能家用IoT设备的语音交互能力，到公共服务、智慧政务等场合的应用，语音识别技术正在影响着人们生活的方方面面。

热点热议

重磅公开！阿里语音识别模型端核心技术，让你“听”见未来

作者：技术小能手发表在：阿里技术

智库大会 | 智能科技：从万物互联到万物智能

作者：技术小能手发表在：阿里研究院

阿里JAVA手册之MySQL数据库（建表规约、索引规约、SQL语句、ORM映射）

作者：hhyboy

知识整理

Linux基础命令---格式转换expand、unexpand

作者：一生有你llx

SAP专家培训之Netweaver ABAP内存管理和内存调优最佳实践

作者：jerrywangsap

SAP Cloud for Customer Account和individual customer的区别

作者：jerrywangsap

使用nodejs代码在SAP C4C里创建Individual customer

作者：jerrywangsap

grafana部署高可用架构

作者：xcola

美文回顾

合格的架构师该有怎样的素质？

作者：java邵先生

kinmall分析区块链的发展前景和未来趋势

作者：金猫kinmall

Python零基础学习笔记（二）——数据的存储

作者：我是王佳俊

zabbix配置web监控实现网页监控

作者：the_script

通过3D可视化管理应对物联网数据过载

作者：thingjs 发表在：GXIC

DOM渲染的详细过程

作者：动力节点

python 模板中的语法

作者：hiekay

有奖话题讨论

程序员写博客推荐使用wordpress、hexo、还是typecho

以 9000 万欧元收购的Data Artisans能为阿里带啦哪些改变？

往期精彩回顾

1月14日云栖精选夜读 | 如何“神还原”数据中心？阿里联合NTU打造了工业级精度的仿真沙盘！

1月11日云栖精选夜读 | 阿里云获ITSS最高等级认证：公共云、专有云服务能力双一级

1月10日云栖精选夜读 | 12亿行代码，阿里巴巴这一年的技术报告和梦想报告

1月9日云栖精选夜读 | Mars 算法实践——人脸识别

1月8日云栖精选夜读 | 克拉克拉：基于阿里云PAI实现渠道ROI投放预测系统

文章标签：

智能语音交互

智能语音交互

监控

物联网

语音技术

Java

JavaScript

Python

区块链

程序员

架构师

专有云

关键词：

阿里智能语音交互

智能语音交互阿里

智能语音交互模型

智能语音交互技术

阿里智能语音交互模型

相关实践学习

一键创建和部署高分电影推荐语音技能

本场景使用天猫精灵技能应用平台提供的技能模板，在2-5分钟内，创建一个好玩的高分电影推荐技能，使用模板后无须代码开发，系统自动配置意图、实体等，新手0基础也可体验创建技能的乐趣。

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

yq传送门

目录

相关文章

刘悦的技术博客

|

3月前

|

人工智能达摩院并行计算

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

君不言语音识别技术则已，言则必称Whisper，没错，OpenAi开源的Whisper确实是世界主流语音识别技术的魁首，但在中文领域，有一个足以和Whisper相颉顽的项目，那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型，它具有高精度、高效率、便捷部署的优点，支持快速构建语音识别服务，最重要的是，FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能，也就是说，它不仅可以实现语音转写，还能在转写后进行标注，一石二鸟。

刘悦的技术博客

288 0 1

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

sunrr

|

25天前

|

机器学习/深度学习语音技术

Hotword模型在语音识别系统中定义为能够识别特定关键词或短语（也称为唤醒词）的模型

Hotword模型在语音识别系统中定义为能够识别特定关键词或短语（也称为唤醒词）的模型

sunrr

24 9 9

croyantssincères.

|

1月前

|

机器学习/深度学习自然语言处理语音技术

语音识别技术的原理与应用

语音识别技术的原理与应用

croyantssincères.

47 0 0

sunrr

|

3月前

|

语音技术

长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测（VAD）

长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测（VAD）【1月更文挑战第11天】【1月更文挑战第52篇】

sunrr

33 1 1

wljslmz

|

4月前

|

机器学习/深度学习自然语言处理人机交互

语音识别技术的发展与未来趋势：深度学习、端到端建模与多模态融合

语音识别技术的发展与未来趋势：深度学习、端到端建模与多模态融合

wljslmz

156 0 0

语音识别技术的发展与未来趋势：深度学习、端到端建模与多模态融合

TechLead

|

4月前

|

机器学习/深度学习人工智能自然语言处理

听懂未来：AI语音识别技术的进步与实战

听懂未来：AI语音识别技术的进步与实战

TechLead

160 0 0

Deephub

|

5月前

|

机器学习/深度学习人工智能数据可视化

Spectron: 谷歌的新模型将语音识别与语言模型结合进行端到端的训练

Spectron是谷歌Research和Verily AI开发的新的模型。与传统的语言模型不同，Spectron直接处理频谱图作为输入和输出。该模型消除归纳偏差，增强表征保真度，提高音频生成质量。

Deephub

40 1 1

熊泽-学习中的苦与乐

|

9月前

|

人工智能编解码 API

C# 10分钟完成百度语音技术（语音识别与合成）——入门篇

C# 10分钟完成百度语音技术（语音识别与合成）——入门篇

熊泽-学习中的苦与乐

379 0 1

阿里云

|

10月前

|

达摩院自然语言处理测试技术

直接开源！达摩院公布下一代工业级语音识别模型

直接开源！达摩院公布下一代工业级语音识别模型

阿里云

498 0 0

山东布谷科技魏

|

10月前

|

语音技术信息无障碍

直播源码搭建平台技术知识：实时语音识别字幕呈现功能

回到我们的直播源码平台开发上来，对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一，好了，正式进入我们今天的主题内容：直播源码搭建平台技术知识：实时语音识别字幕呈现功能！

山东布谷科技魏

102 0 1

直播源码搭建平台技术知识：实时语音识别字幕呈现功能

热门文章

最新文章

Hotword模型在语音识别系统中定义为能够识别特定关键词或短语（也称为唤醒词）的模型

基于Qt的简易语音识别与合成系统设计与实现

Modelscope-FunASR是一个开源的语音识别框架

语音识别技术的原理与应用

【83行代码获奖代码】高中生@青藤木子耗费一周给妈妈编写了一款语音识别APP

从声学模型算法角度总结 2016 年语音识别的重大进步

人机大战机器胜！这次是智能语音识别技术！

人机交互新进展：LFR-DFSMN语音识别声学模型介绍

语音识别真的比肩人类了？听听阿里iDST初敏怎么说

HaaS云端一体智能语音交互方案

Hotword模型在语音识别系统中定义为能够识别特定关键词或短语（也称为唤醒词）的模型

基于Qt的简易语音识别与合成系统设计与实现

语音识别技术的原理与应用

Modelscope-FunASR是一个开源的语音识别框架

语音识别与处理：Python 应用

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

毕业设计|基于STM32单片机的语音识别控制智能停车场设计

长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测（VAD）

要将`modelscope-funasr`的输出从`Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx`更改

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

相关课程

更多

达摩院智能语音交互 - 人机对话技术浅析

达摩院智能语音交互 - 声纹识别技术

阿里巴巴智能语音交互技术与应用

达摩院智能语音交互 - 语音识别技术

达摩院智能语音交互 - 语音合成技术

【重磅】阿里云大咖论AI

相关电子书

更多

阿里云总监课第二期——Neural Network Language Model在语音识别中的应用

阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用

智能语音交互：阿里巴巴的研究与实践

相关实验场景

更多

在阿里云百炼大模型中快速创建企业知识应用

使用函数计算部署通义千问大模型实现AI对话

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用

基于通义千问X函数计算部署AI助手

基于阿里云DeepGPU实例，让AI带你畅玩杭州

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）