语音识别技术之远场语音识别

主播:云栖徒骇 视频数:300
公告:如有问题,欢迎随时讨论
直播介绍 相关视频

远场语音识别是语音交互领域的重要技术,该技术在智能家居(智能音箱、智能电视、智能冰箱等)、会议转录等场景都有重要的应用。由于环境的复杂性,远场语音识别很难做到较高的准确率,这一直制约着语音交互应用的发展和推广。我们将分析远场语音识别的难点和痛点,并介绍现有的一些典型技术,最后我们还将分享最新的技术趋势以及我们自己的“独门干货”。

内容大纲:

  1. 远场语音识别简介
  2. 远场语音识别的难点和痛点
  3. 远场语音识别系统构成
  4. 远场语音识别技术趋势及INTERSPEECH2017论文分享

观众受益:快速了解远场语音识别的应用场景和技术难点,掌握现有的远场语音识别典型技术以及最新的技术趋势。

该直播其他视频
  • 云吞铺子-阿里云虚拟主机新手使用教学
    云吞铺子-阿里云虚拟主机新手使用教学
    来源:云栖徒骇 4369
  • 像阿里巴巴一样保障软件研发质量
    像阿里巴巴一样保障软件研发质量
    来源:云栖徒骇 5591
  • 如何将数据迁移到阿里云Elasticsearch
    如何将数据迁移到阿里云Elasticsearch
    来源:云栖徒骇 2618
  • 飞天技术汇发布会第15期:消息队列Kafka产品发布
    飞天技术汇发布会第15期:消息队列Kafka产品发布
    来源:云栖徒骇 12048
您可能感兴趣
  • 云原生微服务大会 - 微服务开源专场
    云原生微服务大会 - 微服务开源专场
    来源:阿里巴巴云原生小助手 34
  • 云原生微服务大会 - 前端全栈专场
    云原生微服务大会 - 前端全栈专场
    来源:阿里巴巴云原生小助手 30
  • 云原生微服务大会 - 超大规模实践专场
    云原生微服务大会 - 超大规模实践专场
    来源:阿里巴巴云原生小助手 22
  • 如何搭建高转化的外贸网站
    如何搭建高转化的外贸网站
    来源:云市场官方直播号 33
问答
sherlding | 2年前 1、研究生新生,研究深度学习环境下的语言识别,求老师建议用什么环境去做语音识别? 2、噪音和所需要的声音是如何区别的,如果噪声很大也能识别人声吗? 3、highway network 和 Latency Controlled-BLSTM 有什么关系吗? 4、远场语音识别是不是数据非常重要,在算法并没有重大的改进? 5、dnn enhancement 现在效果怎么样? 6、Can deep learning replace beamforming for speech enhancement?
回答
  • 1. 刚开始的话可以使用kaldi作为学习和入门的工具,熟悉了以后再根据自己的需要看是否使用其它工具。 2. 噪声越大对远场语音识别的准确率越不利,可以通过前端信号处理的手段抑制噪声,提升目标语音的增益。 3. highway network是一种模型结构上的改进,Latency Controlled-BLSTM是为了解决BLSTM不适合用于实时服务问题而进行的改进。 4. 在算法不进行改进的情况下,数据对于远场语音识别可以说是非常重要的,训练数据和真实使用时越匹配,模型的准确率就会越高。 5. DNN enhancement 近年来有不少的研究性论文,在各自的集合上都有比较好的表现,有的甚至明显优于已有的前端信号处理技术,具体的结果可以参见论文。 5. Deep learning 做 beamforming 这几年是有不少论文的,通常会用在前后端联合建模的技术中,论文中报道的效果还是非常好的。
  • 国内好像讯飞做的环境比较好吧. 一般都是用做近场的,远场不常见的.
展开全部答案
我是菜鸟9 | 2年前 研究生新生,研究深度学习环境下的语言识别,求老师建议用什么环境去做语音识别?
回答
发送
提问 0/100