云栖问答

找不到答案?去提问题

2017-11-22 20:39:35

直播问题总结


来源: [直播] 语音识别技术之远场语音识别

1、研究生新生,研究深度学习环境下的语言识别,求老师建议用什么环境去做语音识别?
2、噪音和所需要的声音是如何区别的,如果噪声很大也能识别人声吗?
3、highway network 和 Latency Controlled-BLSTM 有什么关系吗?
4、远场语音识别是不是数据非常重要,在算法并没有重大的改进?
5、dnn enhancement 现在效果怎么样?
6、Can deep learning replace beamforming for speech enhancement?

2个回答

0

洵云

国内好像讯飞做的环境比较好吧.
一般都是用做近场的,远场不常见的.

0

坤承

  1. 刚开始的话可以使用kaldi作为学习和入门的工具,熟悉了以后再根据自己的需要看是否使用其它工具。
  2. 噪声越大对远场语音识别的准确率越不利,可以通过前端信号处理的手段抑制噪声,提升目标语音的增益。
  3. highway network是一种模型结构上的改进,Latency Controlled-BLSTM是为了解决BLSTM不适合用于实时服务问题而进行的改进。
  4. 在算法不进行改进的情况下,数据对于远场语音识别可以说是非常重要的,训练数据和真实使用时越匹配,模型的准确率就会越高。
  5. DNN enhancement 近年来有不少的研究性论文,在各自的集合上都有比较好的表现,有的甚至明显优于已有的前端信号处理技术,具体的结果可以参见论文。
  6. Deep learning 做 beamforming 这几年是有不少论文的,通常会用在前后端联合建模的技术中,论文中报道的效果还是非常好的。

1
GO
910
浏览
0
收藏
邀请他人回答