从技术角度看语音识别发展四大方向-控件新闻-慧都网

从技术角度看语音识别发展四大方向

转帖|行业资讯|编辑：龚雪|2016-12-30 10:17:03.000|阅读 1534 次

概述：2016年是语音识别高速发展的一年，得益于深度学习与人工神经网络的发展，语音识别取得了一系列突破性的进展，在产品应用上也越来越成熟。作为语音交互领域中极其重要的一环，语音识别一直是科技巨头研究的重点，国内外也涌现出了一批优秀的创业公司。长久以来，人与机器交谈一直是人机交互领域内的一个梦想。语音识别做为很基础的技术在这一年中再次有了更大的发展。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

这其中几个最具有代表性的例子是，百度、IBM 和微软等公司在语音识别准确率上取得的突破。在今年年初，百度 Deep Speech 2 的短语识别的词错率降到了 3.7%。到了5月，IBM Watson 团队再次宣布在在非常流行的评测基准 Switchboard 数据库中，他们的系统创造了 6.9% 的词错率新纪录。而在今年10月，微软人工智能与研究部门的团队报告出他们的语音识别系统实现了和专业速录员相当甚至更低的词错率（WER），达到了 5.9%。5.9% 的词错率已经等同于人速记同样一段对话的水平，而且这是目前行业标准 Switchboard 语音识别任务中的最低记录。这个里程碑意味着，一台计算机在识别对话中的词上第一次能和人类做得一样好。

就各项突破的技术提升基础，我们可以很明晰的梳理出一条线：

1. 之前 LSTM 这样的模型开始成功应用于语音识别，今年的后续研究不断提升 LSTM 的模型效果。

2. 另外一个比较大的进展是 Deep CNN。Deep CNN 比起双向 LSTM（双向效果比较好）有一个好处——时延。所以在实时系统里会更倾向于用 Deep CNN 而不是双向 LSTM。

3. 端到端学习，这也是百度首席科学家吴恩达在 NIPS 2016 上重点提到的。比如语音识别，输入的是语音，输出的是文本，这是比较纯粹的端对端学习。但是它也有缺点——需要足够大的训练集。

盘点了16年语音识别的发展，那么在未来几年里，语音识别技术主要发展方向是什么呢？

方向一：进一步提升在远场识别尤其是有人声干扰情况下的识别率

目前一般远场识别的错误率是近场识别错误率的两倍左右，所以在很多情况下语音识别系统还不尽如人意。远场识别至少目前还不能单靠后端的模型加强来解决。现在大家的研究集中在结合多通道信号处理（例如麦克风阵列）和后端处理从拾音源头到识别系统全程优化来增强整个系统的表现。

方向二：更好的识别算法

这个「更好」有几个方面：一个方面是能不能更简单。现在的模型训练过程还是比较复杂的，需要经过很多步骤。如果没有 HTK 和 Kaldi 这样的开源软件和 recipe 的话，很多团队都要用很长时间才能搭建一个还 OK 的系统，即使 DNN 的使用已经大幅降低了门槛。现在因为有了开源软件和 recipe，包括像 CNTK 这样的深度学习工具包，事情已经容易多了，但还有继续简化的空间。这方面有很多的工作正在做，包括如何才能不需要 alignment 、或者不需要 dictionary。现在的研究主要还是基于 end-to-end 的方法，就是把中间的一些以前需要人工做的步骤或者需要预处理的部分去掉。虽然目前效果还不能超越传统的 hybrid system，但是已经接近 hybrid system 的 performance 了。

方向三：寻找特殊网络结构

最近的几年里大家已经从一开始使用简单的 DNN 发展到了后来相对复杂的 LSTM 和 Deep CNN 这样的模型。但在很多情况下这些模型表现得还不够好。所以一个研究方向是寻找一些特殊的网络结构能够把我们想要 model 的那些东西都放在里面。我们之前做过一些尝试，比如说人在跟另外一个人对话的过程中，他会一直做 prediction，这个 prediction 包括很多东西，不单是包括你下一句想要说什么话，还包括根据你的口音来判断你下面说的话会是怎样等等。我们曾尝试把这些现象建在模型里以期提升识别性能。很多的研究人员也在往这个方向走。

方向四：快速自适应的方法

快速自适应的方法就是快速的不需要人工干预的自适应方法（unsupervised adaptation）。现在虽然已经有一些自适应的算法了，但是它们相对来说自适应的速度比较慢，或者需要较多的数据。有没有办法做到更快的自适应？就好像第一次跟一个口音很重的人说话的时候，你可能开始听不懂，但两三句话后你就可以听懂了。大家也在寻找像这种非常快还能够保证良好性能的自适应方法。快速自适应从实用的角度来讲还是蛮重要的。因为自适应确实在很多情况下能够提升识别率。

如今，语音识别从算法到模型都有了质的变化，在加上语音领域（语音合成等）的其他研究，语音技术陆续进入工业、家庭机器人、通信、车载导航等各个领域中。当有一天，机器能够真正「理解」人类语言，并作出回应，那时我们必将迎来一个崭新的时代。（本文部分摘自微信公众号“机器之心”，作者李亚洲）

更多行业资讯，更新鲜的技术动态，尽在。