集微网消息,日前,在保加利亚举办的第六届世界通讯社大会上,新华社AI合成主播亮相当天的“人工智能”专题讨论会。与真人无异的播报引发全场轰动。
新华社与会代表在讨论会上分别介绍了用汉语播报新闻的“新小萌”、用俄语播报新闻的“丽莎”(Lisa)和一位用英语播报新闻的男主播,其中丽莎是由新华社、俄罗斯塔斯社和中国搜狗公司共同研发的,三位虚拟新闻主持人在外型、口型、声音和姿态方面都达到以假乱真的程度,让与会者感到十分惊喜。
这么厉害的技术,源自于新华社和搜狗科技的合作。语音合成技术又称文语转换(TTS,Text-to-Speech)技术,即将文字转换为语音的技术,该技术赋予计算机像人一样自如说话的能力,使用户与机器之间的信息沟通更加舒服自然。
其实早在17年1月23日,搜狗就申请了一项名为“语音合成方法和装置、用于语音合成的装置”的发明专利(申请号为:201710051436 .7),申请人为北京搜狗科技发展有限公司。
下面就跟随小编一起了解一下这项神奇技术背后的细节吧。首先来看该设计的总体框架:
如上图所示是基于隐马尔可夫模型(HMM)的语音合成方法,其具体包括了训练阶段和合成阶段两部分。并且为了提高HMM模型的鲁棒性、复杂度和训练数据量之间的均衡性,其中还涉及到了决策树等机器学习方法。
训练阶段可以理解为人类从孩子时期开始学习语音,这时需要大量的素材来供学习以及要有人来监督小孩子的学习过程。对于语音合成训练阶段也同样是如此,从录音数据库中获取训练录音数据,并对训练录音数据进行参数提取,以得到对应的声学参数,该声学参数可以包括:频谱参数、基频参数和时长参数中的至少一种。这里面还包含着基于训练录音数据以及对应的文本生成标注信息。HMM模型就根据这些参数来不断进行学习,训练得到一个较好的模型,来完成音频合成任务。
在合成阶段,可以对给定的待合成文本进行属性分析(如上下文属性分析等),接着,依据所述HMM模型,得到待合成文本对应的状态级预测参数;然后采用参数生成算法,依据所述状态级预测参数,生成所述待合成文本对应的帧级声学参数;最后,依据所述帧级声学参数,(例如通过语音合成器)得到所述待合成文本对应的合成语音。
以上就是语音合成所包含的整体框架,在实际应用中,就可以按照上图的流程,进行所述待合成文本的语音合成,以得到所述待合成文本对应的合成语音。接下来我们用一个简单的图示来说明这个过程是如何完成的。
如上图是语音合成装置的运行流程,该实例流程中包含了:文本接收模块、清浊性判定模块以及合成语音获取模块。
文本接收模块用于接收待合成文本。
清浊性判定模块,用于在所述待合成文本的语音合成过程中,依据频谱参数对所述待合成文本对应状态或者帧的清浊性进行判定,以得到对应的清浊性判定结果。
合成语音获取模块依据所述清浊性判定结果,得到所述待合成文本对应的合成语音。这样就得到了一段合成的语音来朗读我们所需要朗读的文字内容。
在了解了工作原理之后,我们再从硬件设计上来了解语音合成这一过程的具体实现方式。上图所示是根据基于HMM的语音合成方法设计的一种用于语音合成的装置图例,该装置可用于智能手机、计算机以及各种终端,以便于人们来完成文字到语音的转换。
处理元件可以包括多个处理器来执行指令,完成语音转换的全部或者部分步骤。存储器可以存储各种类型的数据以便于支撑在终端上的操作,电源组用于提供电力,音频组用于输入或者输出音频信号,传感器组件为终端提供各个方面的状态评估,通信组件用于为终端和其他设备之间进行有线或者无线方式的通信。
有了上述硬件的支撑,就可以轻松的实现语音合成了。语音合成的效果首现就给人们带来了震撼的效果,不知道在技术高度发展的以后,该技术的出现会对于现有的行业例如播音以及同传等带来什么样的影响,让我们拭目以待。(校对/Juran)
留言与评论(共有 0 条评论) |