基于TensorFlow,人声识别如何在端上实现?

  1. 云栖社区>
  2. 阿里技术>
  3. 博客>
  4. 正文

基于TensorFlow,人声识别如何在端上实现?

技术小能手 2018-05-14 15:06:53 浏览1686
展开阅读全文

现有的人声识别绝大部分在服务端实现,这会带来如下两方面的问题:

1) 当网络较差的情况下会造成较大的延时,带来较差的用户体验。

2) 当访问量较大的情况下,会大量占用服务端资源。

为解决以上两个问题,我们选择在客户端上实现人声识别功能。本文使用机器学习的方法识别人声。采用的框架是谷歌的tensorflowLite框架,该框架跟它的名字一样具有小巧的特点。在保证精度的同时,框架的大小只有300KB左右,且经过压缩后产生的模型是tensorflow模型的四分之一[1]。因此,tensorflowLite框架比较适合在客户端上使用。

为了提高人声的识别率,需要提取音频特征作为机器学习框架的输入样本。本文使用的特征提取算法是基于人耳听觉机理的梅尔倒频谱算法[2]。

由于在客户端上使用人声识别比较耗时,在工程上需要做很多优化,优化方面如下:

1) 指令



网友评论

登录后评论
0/500
评论
技术小能手
+ 关注
所属云栖号: 阿里技术