MIT CSAIL最新论文：跨模态语音和视觉的对齐--粉丝服务平台-粉丝头条-fensifuwu.com

MIT CSAIL最新论文：跨模态语音和视觉的对齐

科技 09-20 来源：乌镇智库

选自VB

原文|Kyle Wiggers

乌镇智库编译

目前看到的机器学习算法在单一的、重复度较高的任务中表现出色（比如机器合成脑肿瘤扫描图，面部识别等）。

麻省理工计算机科学与人工智能实验室（MIT CSAIL）的研究人员最新发表一篇论文，阐释了一种人工智能的“博学”：一个同样能熟练掌握语音识别和物体识别的模型。

CSAIL的研究员David Harwath与该论文的合著者告诉MIT NEWS：“我们一直想通过人类的其他一些信号信息让语音识别结果更加行云流水，但是一般的机器学习算法无法做到。CSAIL的想法是想让模型像一个初生的孩子一样，踏破碧落黄泉直到地老天荒式的‘走遍’全世界，再描述看到的物体，如此训练模型。”

他们的系统通过听语音样本中的单词并识别图片中的相关区域，两者关联学习识别图片中的对象，且没有依赖转录或者注释，仅仅依靠成对的图像和音频标题进行训练。

这个模型由该团队于2016年的研究中的两个卷积神经网络（CNN）组成：一个处理图像，另一个处理音频谱。

在经过40万个成对图像和语音标题的数据集训练后，系统设法将数百个不同的单词与某个对象相关联，团队成员认为它能够最终迭代，完美适应例如各种场景的语言翻译。

Harwath自己对于这篇论文的看法就很意识流了：这篇论文的最大贡献在于证明一个物体所谓跨模态的对齐（例如视觉和听觉），哪些是一对或者哪些不是一对，有点儿像宇宙大爆炸以后物质分散在四处，又吸引变成行星或者恒星。训练前它们都散落各处，当开始训练时它们又会聚合在一起，阐释了语音词汇和视觉之间，对人类来说更具有意义的语义学上的基础。

论文语音识别

发表评论

留言与评论（共有 0 条评论）

相关文章

与IEEE全方位合作 IFAA标准“出海”在即

与IEEE全方位合作 IFAA标准“出海

魅族16X来了，对比16，它都有那些特点？

魅族16X来了，对比16，它都有那些特点？

曾被泼盆冷水的人工智能，可以靠数据实现商业化和创新吗？｜2018世界人工智能大会

曾被泼盆冷水的人工智能，可以靠数据

上海地铁试点语音引导购票年底有望覆盖主要枢纽站

上海地铁试点语音引导购票年底有

智商到底高不高人民网试驾北汽绅宝智行

智商到底高不高人民网试驾北汽绅

赤脚医生跨界自学哲学二十年作品被国内外高校收录

赤脚医生跨界自学哲学二十年作品

网友投稿普通会员

我还没有学会写个人说明

809125 篇文章

26943484 次浏览

最近文章

'); })();