华科大研发！这“只”AI“小猴子”有火眼金睛！--粉丝服务平台-粉丝头条-fensifuwu.com

华科大研发！这“只”AI“小猴子”有火眼金睛！

日期： 2023-12-18 13:49:04 来源：华中科技大学收集编辑：华中科技大学

华科大这项最新“黑科技”

让人工智能“小猴子”

也能“看图说话”！

近日，我校软件学院

白翔教授领衔的VLRLab团队

发布了多模态大模型“Monkey”

该模型能够实现对世界的“观察”

对图片进行

深入问答交流和精确描述

多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构，近年来在众多场景中展现了惊人的能力。

我校团队发布的Monkey模型在18个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外，Monkey在文本密集的问答任务中显示出显著的优势，甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。

图为团队将Monkey代码在GitHub上开源

出色的“看图说话”能力

Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中，Monkey展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中，Monkey正确地将其识别为埃菲尔铁塔的绘画，并提供了构图和配色方案的详细描述。而对左下角的文字，只有Monkey和GPT-4V能将其准确地识别为作者名。

这样惊人的描述能力是怎么做到的？目前，几乎所有多模态大模型都需要运用网上爬取的图文对数据集，这些数据集只能进行简单的图文描述，无法满足大分辨率图片的需求。Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法，即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，此举可以充分结合不同工具的特性，打出一套威力十足的“组合拳”，大幅度提升描述的准确性和丰富程度。

“一个个工具就好比不同的零件，合理的排列组合才能使其发挥最大作用。”白翔表示，团队从2003年开始从事图像识别研究，去年又从海外引进了专攻多模态大模型的青年人才，Monkey的最终方案由大家一起反复讨论，在尝试了10余种方案后才最终确定。

创新方法以更低成本扩大输入分辨率

Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

据悉，目前业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力，需投入十分高昂的算力成本。如何更低成本扩大输入分辨率？团队骨干青年教师刘禹良说，团队采用了创新性的“裁剪”方法，将原始输入图片分割成多个块，每块尺寸小于448×448像素，并为每个块配备了一个“放大镜”，放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作，分别“放大”不同的图片块，就能提取更多局部特征。

“未来，我们希望Monkey更强大，真正成为神通广大的‘孙悟空’！”对这“只”小猴子，白翔信心满满。

来源：华中科技大学官方微信公众号

编辑：高翔、李芊芊

服务粉丝

华科大研发！这“只”AI“小猴子”有火眼金睛！

文章推荐

相关阅读

人工智能AIETF(515070)连续5日净流入，“吸金”超五千万！

大湾区交易所科技大会成功举办资本市场数智赋能进程加速

“大哥帮小弟”AI大模型尝试自主繁殖

盘和林：珍惜董宇辉，“丈母娘”们不要太着急

祝贺！西工大154个班、88个团队、7000多人受表彰！

佛山美陶湾：一场风驰电掣的“文体盛宴”热力启航

董宇辉“小作文”事件：在商言商各方都需有更职业态度

AI未来趋势如何呈现？业界大咖这样说

董宇辉“小作文”事件：在商言商，各方都需有更职业态度丨时评

南京理工大学在中国国际大学生创新大赛中再创佳绩！

聚合标签

热门文章

解码“新IT”的5个特征和3大价值

同款产品价差大，“双11”薅羊毛要“横跳”

《心跳文学部》是一款什么样的游戏，为什么在国内被禁？

OPPO k1的低价高配真实么？网友：不看不知道

一招教你手机无限制成为一台新设备

从零开始如何开网店

最新文章

华科大研发！这“只”AI“小猴子”有火眼金睛！

国网莱西市供电公司：全力应对寒潮保障电力可靠供应

雪霁天晴银装素裹

2024高考英语听说机考首考开考成绩将于1月9日公布

柳人医集团潭中院区行动学习进支部助力医院高质量发展

星空有约｜美丽极了！观测猎户座大星云正当时