我们再进一步设想一下,《挑战不可能》里的那位老师是通过和实验者的对话来识别出实验者的,如果仅仅凭实验者的声音,没有对话,她能否也可以构建出一个陌生人的脸庞呢?这个好像就更有难度了,因为对话是可以从语气、语调、语速等等方面以及问题的设定和回答过程,从心理学角度构建一个人的面部特征。只听声音,而没有问题和对话的过程,这样还能行吗?能!这项本领不是”特异功能“,而是人工智能。
这就是科学家们最新研制的机器人:听音辨人机器人,它实际上是一台被称为神经网络的计算机,它能够以类似于人的大脑思维的发方式进行“思考”,基于来自互联网上超过10万个不同个体的语音视频进行训练,从而掌握听音辨人的能力。通过这个数据库,听音辨人机器人学习了人的声音和面部特征之间的关系,然后人工智能就能依据一个音频片段来构建符合此人声音特征的面部照片。不过,这台机器人还无法单独凭借声音就能准确地知道一个人的特定相貌。神经网络也只是在人的话语中识别出性别,年龄,种族以及其他被人们分享出来的特征信息。因此,这项技术只能描绘出一幅“大众脸”,也就是具备一般特征的相貌,还无法生成特定个体的相貌。尽管人工智能技术只能大致描绘出一个人的面容,但这也是相当不错的成果。
听音辨人机器人根据声音生成的面容与真人对比
从上图可以看到,通过声音片段来生成的人的面孔和真人相比,还是有一定的相似度。由听音辨人机器人生成的面容,均为正面角度而且面部表情呈现中性化特征,无喜无怒,无乐无忧。尽管它生成的图像还无法精确地匹配真人,但是这些图像却能准确地抓住个体的年龄、种族、性别等特征。当然,这个效果距离完美还有很大一段距离,当它面对语言变体时,则会呈现出一种”混同“特征。举个例子,当一位亚洲人说汉语时,听音辨人机器人听到他的声音,就会生成一幅亚洲人的面孔。然而,当同样这个亚洲人说英语时,通过音频片段来判断后,听音辨人机器人则会生成一幅欧洲人的脸庞。
另外,听音辨人机器人的程序算法也会有“性别偏见”,就是自然而然地将低沉的声音定义为男性,将尖锐的高音定义为女性,这是由于其学习的视频数据只来源于YOUTUBE,并不能代表整个世界的人口特征。当然,从YOUTUBE里获取视频数据存在着道德和法律风险,一个人在YOUTUBE里的面部视频没有经过其同意就被用在了听音辨人机器人的研究上,这是该技术在“学习”资料收集和整理上的硬伤,也就是说这项技术的研究没有获得相应的授权。
从应用方面来看,这项技术绝对“大有前途“,特别是在案件的侦破和安保等方面,通过声音线索来找出嫌疑人。当然,这项技术还不是非常成熟,不过从技术角度讲,完善听音辨人机器人的准确性也不是没有途径,主要就是它的“学习数据”的广泛性和代表性,这就是大数据一定要“大”,要"广“,现有的效果就是因为单一的YOUTUBE视频来源所造成的。而站在全球视角,各种族,各地区,各语言的不同个体的面部特征都是提高听音辨人技术的准确性所必须的,虽然在面部特征视频的积累上存在法律障碍,但通过全球广泛的参与和合作,是能够处理好这个问题的。再看听音辨人机器人的算法。我们知道,一个预测模型对现实拟合度的准确性也在很大程度上取决于输入的数据的量,数据越多,拟合度越高,所以无论从哪个方面看,只有体量庞大的数据才能保证最广泛的个体特征的积累和识别能力,算法的准确性才能得到有效的保证。
进一步来看,每个人都有特殊的,独一无二的相貌。同样,声音也是人的独特身份特征,每个人的声音也是独一无二的。听音辨人技术的发展方向就是把这两类人的个体特征关联起来,从独特的声音判断出独特的相貌,联接它们之间的通道就是建立在数据和算法的基础之上。科学技术的发展是不会停下脚步的,这项技术的未来也会充满希望。
留言与评论(共有 0 条评论) |