单词错误率低至2.6%!谷歌新音频数据增强方法!

【PConline资讯】谷歌AI的研究人员正在把计算机视觉应用于频谱图,开发出了新的数据增强技术SpecAugment,能在不需要引入额外数据的情况下,使语音识别系统性能达到最优。

4月24日消息,据外媒报道,GoogleAI的研究人员正在把计算机视觉应用于频谱图。SpecAugment可以在不改编基础语言模型的情况下使语音识别系统的性能达到最优。

研究人员表示,SpecAugment方法不需要额外的数据,便可有效解决模型的过拟合问题,极大的减少了计算成本。

该成果详见4月18日发表在预印本论文提交平台arXiv的论文,论文名为《SpecAugment:一种用于自动语音识别的简单数据增强方法》(SpecAugment:ASimpleDataAugmentationMethodforAutomaticSpeechRecognition)。

一、新数据增强技术剑指过拟合问题

SpecAugment是谷歌AI研究人员新开发的一种数据增强的技术,这种技术不同与传统的数据增强技术,在语音识别方面,是对声波图直接进行增强,而是另辟蹊径,对转化后的声波图——频谱图进行增强。

这种数据增强的技术,能更高效地解决自动语音识别(ASR)系统模型出现的过拟合问题。

过拟合是指,随着训练次数增多模型会慢慢找出数据的模式,能在尽可能多地拟合数据点的同时反映数据趋势,如果继续训练,那模型就会进一步挖掘训练数据中的细节和噪声,为了拟合所有数据点“不择手段”。结果是,模型会对已知数据预测得很好,而对未知数据预测的很差。

通常人们采用增大数据量和测试样本集的方法来解决过拟合的问题,但这会增加计算成本。

而SpecAugment无需引入额外的数据,通过直接对频谱图数据进行增强,来解决过拟合问题,从而提升语音识别准确率。

二、SpecAugment使单词错误率降至2.6%,

在传统的ASR中,音频波在被作为网络的训练数据之前通常被编码为可视图,例如频谱图。训练数据的增强一般会应用于声波图,然后增强后的声波图会转换为频谱图,这样一来,每次增强之后,都会生成新的频谱图。

而在SpecAugment增强的是频谱图本身而不是波形数据。由于增强功能直接应用于网络的输入特征,因此可以在训练期间在线运行,而不会显著影响训练速度。

SpecAugment对频谱图的修改方式包括:沿时间方向扭曲频谱图、屏蔽某一些连续的频率段的信号、以及及时屏蔽某一时间段的发音。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();