首页 >新闻 > 科技 > 内容

亚马逊的AI将实时语音识别错误率降低6.2%

科技 2019-11-03 16:38:23

自动语音识别系统(如Alexa的核心系统)将语音转换为文本,其组成部分之一是模型,该模型可以预测在一个单词序列之后会出现哪个单词。它们通常基于n元语法,这意味着在过去的n -1个单词的情况下,它们会保留下一个单词的概率。但是像递归神经网络这样的体系结构由于能够学习远程依赖关系而常用于语音识别中,很难集成到实时系统中,并且通常难以从多个语料库中获取数据。

这就是为什么亚马逊Alexa研究部门的研究人员研究了使这种AI模型更适合语音识别的技术的原因。在定于即将在奥地利格拉茨举行的2019年Interspeech会议上发表的博客文章和随附论文(“ ASR的可扩展多体神经语言模型”)中,他们声称它们可以将单词识别错误率降低6.2%。

研究人员通过建立域内和域外训练数据集的常规模型来解决数据短缺的问题,他们将这些模型线性地组合在一起。他们为每个语料库分配了一个分数,以衡量其与域内数据的相关性,从而确定了为补充数据集选择样本的可能性。然后他们应用了转移学习(一种学习方法,在该方法中,为任务开发的模型被重用为第二个任务的模型的起点),以学习AI模型。

接下来,研究人员通过具有n语法模型的语音识别器传递数据,以使用AI模型完善其预测。为了最大程度地降低传统模型拒绝AI模型会考虑的假设的风险,他们使用后者来生成综合数据,该综合数据为首过模型提供了训练数据。

训练数据中的样本是成对的单词而不是单个单词,作为称为噪声对比估计的方案的一部分,其中一对单词中的一个是真实目标,而另一个单词则是随机选择的。该模型的任务是学习通过直接估计目标单词的概率来分辨差异。

研究人员最后量化了AI模型的权重,以进一步提高其效率。(本文中的“权重”是指系统内节点的突触强度,这些节点从其他节点接收数据并在将其传递给其他节点之前对其进行转换。)量化考虑了特定变量可以采用的所有值范围,以及将其拆分为固定数量的间隔,以使一个间隔内的所有值都近似为一个数字。根据团队的说法,由于量化,AI模型在50%的情况下将语音处理时间增加了不超过65毫秒,在90%的情况下将不超过285毫秒。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。