语音识别现在发展到什么阶段了？

浏览：来源：时间：2023-07-20

在电影《钢铁侠》中，智能助理贾维斯的出色表现让大家充满了对智能语音助手的期待。语音识别技术就是为了让机器人听明白你在说什么，它就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。

在人工智能快速发展的今天，语音识别开始成为很多设备的标配，语音识别开始被越来越多的人关注，国外微软、谷歌、Facebook，国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法，今天小编就将为你做语音识别技术的简单介绍，并谈谈它的发展历程和未来可能的发展方向。

在电影《钢铁侠》中，智能助理贾维斯的出色表现让大家充满了对智能语音助手的期待。语音识别技术就是为了让机器人听明白你在说什么，它就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，海量未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点创建语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上创建语音识别所需的模板;而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征矢量进行统计模式识别(又称“解码”)，得到其包含的文字信息。

事实上，语音识别60多年的发展过程可以分成多个阶段。早期的20多年，即从20世纪50年代到70年代，是科学家们走弯路的阶段，全世界的科学家认为必须先让计算机理解自然语言，也就是用电脑模拟人脑，这20多年的研究成果近乎为零。

直到1970年后，统计语言学的出现才使语音识别重获新生，并取得了今天的非凡成就。推动这个技术路线转变的关键人物是德里克・贾里尼克。采用统计的方法，IBM将当时的语音识别率提升到了90%，同时语音识别的规模从几百单词上升到几万单词，这样语音识别就有了从实验室走向实际应用的可能。

首先，我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，下图是一个波形的示例。

要对声音进行分析，就需要对声音分帧。也就是把声音切开成一小段一小段，每一小段称为一帧，如上图25ms为一帧。

语音识别的工作可以分为三步：第一步，把帧识别成状态；第二步，把状态组合成音素；第三步，把音素组合成单词。

如下图所示：

如上图，每个小竖条代表一帧，若干帧语音对应一个状态（如S1029），每三个状态组合成一个音素（如ay），若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。这个“对应”过程就需要用到统计语言学。比如每帧音素对应哪个状态呢?有个容易的办法：看某帧对应哪个状态的概率最大，那这帧就属于哪个状态；这也就是观察概率。此外，还包括：转移概率（每个状态转移到自身或转移到下个状态的概率），语言概率（根据语言统计规律得到的概率）。

其中，前观察概率和转移概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。这样基本上语音识别过程就完成了,这就是语音识别技术的原理。

20世纪80年代以后，语音识别研究的重点则逐渐转向大词汇量、非特定人连续语音识别。20世纪90年代以后，在语音识别的系统框架方面并没有什么重大突破，直到大数据与深度神经网络时代的到来。

任何技术都有蓄能阶段和爆发阶段，语音识别技术的爆发是源于大数据，伴随互联网出现的涟漪效应和深度神经网络。涟漪效应，指把研究层、产品和用户使用组合在一起，形成一个闭环的迭代优化，这是互联网思维在核心技术优化和突破所发挥作用的一种表达。通过这种方式不仅可以获取数据，还能学习经验、认识以及怎么使用等，比如说调整哪些东西让用户体验得更好。

在大数据时代到来后，隐马尔可夫模型出现了局限，即数据量提升时，它带来的表现提升没有深度神经网络那么大。在同样具有涟漪效应的情况下，深度神经网络比之前的算法好，数据越多，深度神经网络的效果更好。深度神经网络由GeoffreyHinton与微软的邓力研究员最先开始做。

虽然目前的语音识别技术已经能够让机器听懂大部分人类的声音，但离“贾维斯”这种假想的超级智能助理的交互能力还很远。语音识别技术的发展方向将从识别到感知认知。

例如，研究者正在努力工作以确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方，比如聚会场所或在高速路上驾驶的时候。他们也将关注如何更好地在多人交谈环境中将不同的说话人区分开，不管说话人的年龄、口音或说话能力。例如谷歌近期公布了一项研究成果：能够从嘈杂的环境中分离出单个人的声音。

从更长远来看，研究者将会关注如何教计算机不只是转录来自人类嘴巴的声音信号，而是回到20世纪50年代到70年代语音识别领域专家的最初设想：让计算机理解自然语言，用电脑模拟人脑。让机器可以根据自己被告知的内容回答问题或采取行动。

活动推荐：“5G场景应用研讨沙龙”

2019年6月6日，工信部向中国电信、中国移动、中国联通、中国广电发放5G商用牌照，中国也正式进入5G商用元年。中国信息通信研究院也发布了《5G经济社会影响白皮书》，白皮书预测，到2030年，5G有望带动我国直接经济产出6.3万亿元、经济增加值2.9万亿元、就业机会800万个。为充分发挥5G潜能，相关部门应未雨绸缪，超前部署网络基础设施。因此，在2019年5G技术赋能下，商业应用场景的落地受到行业内外人士的广泛关注。亿欧联合京东物流将在8月16日举办一场以“5G赋能商用落地”为主题的沙龙，意在邀请各位专家学者共同探讨5G应用落地发展现状与未来趋势，旨在为行业内外人士提供一个交流学习的资源共享平台。活动详情请戳：https://www.iyiou.com/post/ad/id/848

上一篇: 《救援行动2013：全职英雄》详细评测：超越！

下一篇: 英伟达发布了一款自动驾驶仿真系统可模拟驾驶十亿英里