预告:语音交互前沿技术分享——INTERSPEECH 2017系列

简介: iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展,首场将于10月25日(本周三)晚上7点半正式开始。

今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,共历时5天。据了解,本次大会共有839篇论文被大会接受,分成109个session。众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。


那么作为语音交互领域顶级的国际会议,我们可以从INTERSPEECH 2017中看到哪些技术前沿趋势呢?为此,iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展,具体安排如下:

首期分享将在10月25日(本周三)晚上7点半正式开始,欢迎关注语音识别技术的同学报名参与(报名请戳这里)!

直播主题:语音识别技术之自适应技术

内容简介:语音识别技术是将语音转换成文字的技术,而说话人自适应技术的目的是降低语音识别中不同说话人之间的差异性带来的影响,这些差异性主要包括生理构造、语音环境和说话人情绪等。本次直播主要向大家介绍INTERSPEECH2017会议中的语音识别的自适应技术的一些研究成果。

观众受益:了解语音识别中的自适应技术及该技术的最新研究成果

讲师:黄智颖(云昔),阿里巴巴-iDST算法工程师


注:INTERSPEECH (Annual Conference of the International Speech Communication Association)是由国际语音通信协会ISCA(International Speech Communication Association)组织的语音研究领域的顶级会议之一,和ICASSP (International Conference on Acoustics, Speech, and Signal Processing)并称为国际语音领域最著名、影响力最大的两个学术会议。相对于ICASSP会议侧重声学、语音信号相关的学术讨论,INTERSPEECH会议的讨论范畴则包罗万象,从信号处理到语音识别、语音合成,以及各种相关的前处理、后处理方法,再到口语理解和语音交互,包含了语音技术相关的各个方面,堪称国际语音行业的一个年度盛会。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
打赏
0
0
0
1
762
分享
相关文章
ICML 2024:AI也会刷抖音!清华领衔发布短视频全模态理解新模型
【8月更文挑战第20天】SALMONN是由清华大学在ICML 2024发表的一种开创性的多模态模型,专为短视频全模态理解设计。它集成了预训练文本大模型与语音、音频编码器,能直接处理多样音频输入,在自动语音识别、翻译、情绪识别等任务中表现出色。SALMONN展现了令人兴奋的新能力,如翻译未训练语言和基于语音的问答。通过少样本激活微调,可进一步发掘其跨模态潜能。尽管如此,模型的计算成本和泛化能力仍是待克服的挑战。SALMONN标志着AI在具备通用听觉理解方面迈出重要一步。[论文链接: https://arxiv.org/abs/2310.13289]
178 3
"FunAudioLLM震撼来袭!重塑语音交互新纪元,让每一次对话都充满魔法与情感共鸣!"
【8月更文挑战第11天】随着AI技术的发展,语音交互正经历革新。阿里巴巴推出的FunAudioLLM是一款先进的语音技术框架,包含SenseVoice和CosyVoice两大核心模型。SenseVoice擅长多语言语音识别与情感分析;CosyVoice则专精于自然语音生成,支持多语言、音色与情感控制。这两个模型结合,能实现在语音翻译、情绪对话等场景下的广泛应用,为人机交互带来更加真实与丰富的体验。通过开源社区的支持,FunAudioLLM将持续进化,成为语音技术领域的重要推手。
155 5
「寻找热爱技术创作的你:写下你在技术探中的实践和思考」零一万物大模型开放平台 第三天 我爱我园
```markdown 零一万物大模型开放平台中,使用RAG模型进行HTTP POST请求交互,查询洛杉矶天气。请求成功(Status 200),但响应内容未提供天气信息,可能因JSON数据省略或格式问题导致答案缺失。 ```
达摩院语音实验室祝你新年快乐!
达摩院语音实验室祝你新年快乐!
134 0
达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验
9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。
1928 0
达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验
今日直播预告:所有同学!达摩院语音技术专场来咯!
6月4日(今天)下午16点,达摩院机器智能技术实验室——付强博士做客直播间!
今日直播预告:所有同学!达摩院语音技术专场来咯!
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等