来测测自己的智商吧,Google的DeepMind开发了针对AI模型的IQ测试

没有什么东西比不懂你的口音的语音识别系统更令人沮丧。发音的语言差异使数据科学家多年来一直困扰(最近的一项研究发现,YouTube的自动字幕比苏格兰语的南方人更糟糕,但并不是因为缺乏尝试。训练模型需要大量数据,而某些方言不像其他方言那么常见。

思科,莫斯科物理科学与技术学院和高等经济学院的研究人员在预印本服务器Arxiv.org上发表的一篇新论文(“ 学习语音模式的外国英语口音调整 ”)中提出了一个可能的解决方案。他们的系统利用了词汇和语调的辩证差异来创建新的重音词样,与类似的系统相比,它学会了一些准确的识别。

研究人员写道:“为了提高现有[语音识别]模型的性能,需要更多的非本地重音语音数据。” “然而,它的综合仍然是一个悬而未决的问题。”

该团队从卡内基梅隆大学(CMU)发音词典中获取数据,该词典包含数千个英语使用者录制常用词的录音。传统上,当训练系统采用新口音时,语音学家必须手动提取称为语音概括的特征,以表示通用美国英语(GAE) - 缺乏明显区域或种族特征的英语口语 - 与不同口音的音频样本之间的差异。但是那种硬编码往往不能很好地扩展。

研究人员的模型自动推广了这些规则。使用字典映射来自乔治梅森大学的语音口音档案 - 来自各种语言背景的语音样本集合 - 到CMU的独特声音,它通过对输入单词进行替换,删除和插入来预测发音。

团队使用该模型生成一个语音数据集,它们被送入一个递归神经网络 - 一种常用于语音识别任务的神经网络 - 试图摆脱不必要的声音并改变它们,以便它们不会偏离太远来自GAE单词版本。在对800,000个样本进行培训后,它能够识别重音词,准确率为59%。

这是初步的研究 - 因为CMU词典包含的声音比GMU少,因此该模型只能学习CMU的20个语音概括中的13个。但该团队设法将CMU数据集的大小从单个重音的103,000个语音转录增加到具有多个重音的100万个样本。

“所提出的模型能够学习以前由语音学家手工获得的所有概括,”研究人员写道。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();