几十年来,自动语音识别(ASR)一直是机器学习问题的一大挑战。
与人类不同,自动语音识别器有时对上下文信息不是特别敏感,并且对于条件的变化(例如记录条件和重音)感应不稳定。
而越来越多用户开始发现,语音识别领域,竟也存在着赤裸裸的“口音歧视”。
(图源:Economist)
案例1:同一国家地域方言的尴尬
在一个恶搞广告中,一位美国姑娘要求亚马逊的语音控制助手Echo播放“乡村音乐电台”(the country music station)。但Echo却没有“听懂”她的口音,然后把她的命令听成了“极度便秘”(extreme constipation),这种反差简直让人忍俊不禁。不久之后,她实在忍受不了,就换了一款能识别“南方口音”的设备,但这回这台语音助手又犯了错,有一次直接把罐头饼干列入了姑娘的购物清单上——要知道,一般美国的南方姑娘都是自己做的这类饼干,一不小心就丢脸丢到了太平洋。
如今,越来越多的智能手机和电脑(包括台面式电脑,如Echo)可以通过语音命令进行操作。这些系统在了解用户告诉他们要做什么方面变得越来敏捷,但对那些口音特别、非标准英音/美音的消费者来说,带来的却可能是一次次让人沮丧的体验。
今年,在被曝出“怪笑bug”后,亚马逊Echo又出了一次大糗——因为理解错误,将用户的一段家庭谈话“打包发送”给了她的同事。
(图源:Daily Express)
训练机器识别用户语音,需要大量录制的演讲,然后人工制作它的转录。语音识别系统查看音频和文本文件,并学习彼此匹配,以便它可以最好地猜测以前从未听过的新的单词流。
每个国家用的可能只是单一一种标准语音的识别系统,而其他口音可能被过滤掉。但每个人都有口音,即使有些并不那么明显或奇怪。
案例2:语音识别的“种族歧视”
作为华盛顿大学语言学博士的一部分,Rachael Tatman研究了各种区域口音的自动语音识别。在一项研究中,她查看了使用谷歌语音识别系统的YouTube上的自动字幕。塔特曼女士专注于五种不同口音的演讲者,阅读一系列孤立的单词,这些单词因其对不同发音的敏感性而被选中。
苏格兰演讲者的自动字幕在语音识别中表现最差,一半以上的单词不正确地转录,其次是美国南方人(来自格鲁吉亚)。
除了“口音歧视”外,有时这些语音辅助设备涉及了“种族歧视”。在后续实验中,Tatman女士使用微软制作的YouTube和Bing Speech来测试美国口音。两者都发现,对语音识别系统而言,黑人、黄种人的发言者比白人更难理解。
口音,对人类来说不是大问题,有时还会觉得充满了异国情调的魅力,但对机器来说,却是高级挑战。这些系统的制造商意识到了这个问题。他们正在尝试提供更多选择:您可以将Apple的Siri或Echo设置为澳大利亚英语。但他们仍然只能达到如此多的口音,偏向于标准而非区域性。
以口音奇特闻名的“印度腔”可能会让很多人抓狂,机器更是如此,但印度市场自然也就最大化地为这些公司带来了诱人的市场机遇,同时更多的是巨大的技术挑战。
案例3
不久前,《华盛顿邮报》发表的一篇深度报导引起了颇大的回响,他们与Globalme、Pulse Labs两家语言研究公司合作研究智能音箱的口音问题,研究范围来自美国近 20个城市、超过100位受试者所发出的数千条语音命令,发现这些系统对不同地区人们的语言理解有着差异。例如,Google Home听懂西岸口音胜于南方口音,但差异更明显的是,非英文母语的人所说的英文,例如以西班牙文、中文作为第一语言的人,在此测试中,这两大族群所说的英文,不论是Google Home或Amazon Echo的辨识准确率都是排最后,很可惜的是——拉丁裔及华裔是美国两大移民族群。
用户自己训练语音识别
一种解决方案是——让人们训练自己的手机和小工具来识别它们,这是一项相当简单的任务,它可以让用户掌握控制权而不是等待科技公司提供解决方案。 Echo已经允许这样做了。一个名为Cleo的新功能就像一个游戏一样,诱使用户发送亚马逊的新数据,无论是还没有被Echo同化的新语言,还是是理论上已经收录的重音。
亚马逊的珍妮特·斯利夫卡(Janet Slifka)描述了这种适应性系统特性:随着顾客的使用,它们会变得更好。应用程序允许用户告诉Echo他们是否已被正确理解,例如,提供进一步的培训数据。但如果它们不能立即奏效,人们就会放弃使用它们,也就不会继续改善它们。那些有非标准口音的人如果想不被身旁的语音设备遗忘,可能必须坚持下去。
研究人员给出越来越多的AI语音识别方案
另一方面,研究人员也在帮忙开发专门检测重音的人工智能方案,以改善语音识别。
思科,莫斯科物理科学与技术学院和高等经济学院的研究人员Arxiv.org上发表的一篇新论文中提出了一个可能的解决方案,该论文名称为“学习语音模式的外国英语口音调整”(Foreign English Accent Adjustment by Learning Phonetic Patterns)。他们的系统利用了词汇和语调的辩证差异来创建新的重音词样,与类似的系统相比,它学会了一些准确的识别。
研究人员写道:“为了提高现有[语音识别]模型的性能,需要更多的非本地重音语音数据。”“然而,它的合成仍然是一个悬而未决的问题。”
该团队从卡内基梅隆大学(CMU)发音词典中获取数据,该词典包含数千个英语使用者录制常用词的录音。一般而言,当训练系统采用新口音时,语音学家必须手动提取称为语音概括的特征,以表示通用美国英语(GAE)——一种缺乏明显区域或种族特征的英语口语——与不同口音的音频样本之间的差异。但是那种硬编码往往不能很好地扩展。
研究人员的模型自动推广了这些规则。他们使用字典,将来自乔治梅森大学的语音口音档案——来自各种语言背景的语音样本集合——映射到CMU的独特声音,该模型通过对输入单词进行替换、删除和插入来预测发音。
团队使用该模型生成一个语音数据集,它们被送入一个递归神经网络(一种常用于语音识别任务的神经网络),试图摆脱不必要的声音并改变它们,以便它们不会与来自GAE单词版本偏离太远。在对800,000个样本进行培训后,它能够识别重音词,准确率为59%。
这是初步的研究——因为CMU词典记录的声音比GMU群体的丰富语音要少,因此该模型只能学习CMU的20个语音大纲中的13个。但该团队设法将CMU数据集的大小从单个重音的103,000个语音转录增加到具有多个重音的100万个样本。
“我们所提出的模型,能够学习以前由语音学家手动获得的所有大纲。”研究人员写道。
口音是自动语音识别(ASR)系统希望进一步突破的领域,不论是对神经网络引擎或统计模型都是如此。
疯狂收集语音样本的科技巨头
对做语音识别、智能音箱的科技巨头们而言,口音仍然是他们面临的主要挑战之一,他们正投入资源以训练、测试新的语言和口音,包括利用游戏的方式来吸引用户,以取得不同的声音数据。
国外知名语料库之一是Switchboard,搜集了543位发言者(caller)、70个话题,总计大约260个小时的电话录音,而且在不断更新。微软及IBM近一两年的语音识别研究,就是用Switchboard 来测试语音系统的错字率(WER,Word Error Rate)。
但收集语音数据成本昂贵、流程繁琐,目前也存在着诸多门槛。企业还是会先迎合那些较多样本的群体,消费者们使用越多,也就越容易帮助改善体验。
呼吁开源“献声”的机构
在这种情况下,已经有机构和企业站出来,呼吁齐力“献声”打破谷歌、亚马逊等巨头的垄断,进一步开源语音样本。Mozilla在去年7月宣布了一项最大开源语音募集专案——同声计划(Common Voice),希望建立一个开放且公开的语音数据集,每个人都可以使用它来训练语音应用程序。
留言与评论(共有 0 条评论) |