MIT CSAIL最新论文:跨模态语音和视觉的对齐

选自VB

原文|Kyle Wiggers

乌镇智库编译

目前看到的机器学习算法在单一的、重复度较高的任务中表现出色(比如机器合成脑肿瘤扫描图,面部识别等)。

麻省理工计算机科学与人工智能实验室(MIT CSAIL)的研究人员最新发表一篇论文,阐释了一种人工智能的“博学”:一个同样能熟练掌握语音识别和物体识别的模型。

CSAIL的研究员David Harwath与该论文的合著者告诉MIT NEWS:“我们一直想通过人类的其他一些信号信息让语音识别结果更加行云流水,但是一般的机器学习算法无法做到。CSAIL的想法是想让模型像一个初生的孩子一样,踏破碧落黄泉直到地老天荒式的‘走遍’全世界,再描述看到的物体,如此训练模型。”

他们的系统通过听语音样本中的单词并识别图片中的相关区域,两者关联学习识别图片中的对象,且没有依赖转录或者注释,仅仅依靠成对的图像和音频标题进行训练。

这个模型由该团队于2016年的研究中的两个卷积神经网络(CNN)组成:一个处理图像,另一个处理音频谱。

在经过40万个成对图像和语音标题的数据集训练后,系统设法将数百个不同的单词与某个对象相关联,团队成员认为它能够最终迭代,完美适应例如各种场景的语言翻译。

Harwath自己对于这篇论文的看法就很意识流了:这篇论文的最大贡献在于证明一个物体所谓跨模态的对齐(例如视觉和听觉),哪些是一对或者哪些不是一对,有点儿像宇宙大爆炸以后物质分散在四处,又吸引变成行星或者恒星。训练前它们都散落各处,当开始训练时它们又会聚合在一起,阐释了语音词汇和视觉之间,对人类来说更具有意义的语义学上的基础。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();