微软推出多模态大语言模型KOSMOS-1,印证大语言模型能力可延伸至NLP外领域。该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答的能力。经过测试比较,KOSMOS在语言理解、语言生成、无OCR文本分类、常识推理、IQ测试、图像描述、零样本图像分类等任务上都取得了相比之前其他单模态模型更好的效果。
产业竞争已经开启,预计GPT4/4.5或将推动多模态。据《财富》杂志报道,GPT4有望于今年发布。根据OpenAI的CEO Sam Altman的公开采访推测,相较前代,GPT4可能不会有参数量上的巨幅提升,而是在其他方向寻求提高。我们认为,多模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增,也会同样为AI视觉、视频传输等领域的公司带来全新需求突破。
GPT带来通用智能,多模态使得输入输出信号超越语言,且国内具备快速追赶及超越机会。1)GPT代表通用智能,ChatGPT基于其思维链(CoT)能力已经能在多种任务、各类领域里产生应用,且当前已经开放API,参考过往GPT3可进行细分领域fine-tune的实例,未来有望向更通用领域发展。2)多模态是未来实现通用人工智能的关键。现实世界中的数据天然就是多模态的,人类通过综合运用多种感官,来感知和理解现实世界中的数据,而多模态使得AI的输入输出信号超越语言。3)从KOSMOS1论文看,主要作者为华裔,KOSMOS模型规模不大,且披露了较多训练细节,有利于复现;国内具备海量视频数据优势,可能具备快速追赶、甚至超越的机会。
多模态未来能力提升空间巨大,带来千行百业应用。我们认为,多模态GPT落地应用速度将会很快,国内有望复现类似模型并快速在细分场景使用。1)1~5年内,多模态的输入输出主要将是文本、图像和音频,一大应用场景会是智能办公,如智能PPT和其他office套件,可以通过理解用户语言需求和根据用户提供的多模态输入数据,产出办公成果。2)1~7年内,多模态有望在综合机器视觉领域得到广泛应用,输入输出将包括3D模型,视频等,有望赋能自动驾驶领域感知、规控和仿真能力,亦有望有望提高3D模型生产效率,助力游戏内容与元宇宙构造。3)5~10年内,多模态AI模型有望具备与真实世界所有输入交互的能力,将极大提升人形机器人的能力,使得人形机器人加速落地普及。
投资建议。建议关注:1)视觉智能:海康威视、大华股份、云从科技、商汤科技。2)产业工具:当虹科技、数码视讯、网达软件等;3)潜在多模态受益:万兴科技、中科创达、新国都等。
微软公布全新多模态大语言模型KOSMOS-1,能够感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答。近期,微软发布新论文《Language Is Not All You Need: Aligning Perception with Language Models》,提出了KOSMOS-1,一种多模态大语言模型(Multimodal Large Language Model,MLLM)。Kosmos-1能够感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答。例如,图一中模型接受图像和文字输入,回答提问,先判断图中是鸭子,被用户否定后再判断图中是一只兔子,并给出理由是有兔耳朵;图二是模型能在得到两种鸟类的文字描述后,成功对没学习过的(零样本分类)鸟类照片分类;图三是模型能进行非语言推理的IQ测试。
论文中通过五大类任务测试了KOSMOS-1的不同能力,并分别与其他AI模型进行了对比,包括:
• 语言任务: 语言理解、语言生成、无OCR文本分类(不依赖光学字符识别直接理解图中文本)
• 跨模态迁移:常识推理(如提问物体的颜色,问两个物体比大小,将KOSMOS-1和单模态的大语言模型比较,发现KOSMOS-1受益于视觉知识能完成更准确推理)
• 非语言推理:IQ测试 (如图1中的图形推理)
• 感知-语言任务:图像描述生成、图像问答、网页问答
• 视觉任务:零样本图像分类、带描述的零样本图像分类(如图1中的鸟类识别问题)
在这些任务中,KOSMOS-1都能取得较好效果。例如图表3中展示的论文里两张表的数据,分别显示在零样本的图像描述任务上,KOSMOS-1在COCO和Flickr30k数据集上获得了比其他模型更高的评分。在ImageNet数据集上,KOSMOS-1的零样本图像分类精度高于其他模型。
KOSMOS-1的实现主要来自下多模态数据集训练、构架革新、以及微调对齐人类偏好。1)模型的训练采用了多模态的数据训练集,包括单模态数据(文本语料库)、跨模块配对数据(如图像-字幕对)和交织多模态数据(如图像文本交错的文档)等。模型将所有模态的数据都编码为向量作为模型的输入,对于文本之外的图像等模态,将他们视为“外语”输入,不同的模态编码后用不同标记区分,比如图像用<image>和</image>标记编码结果的开头和结尾。文本则用<s>和</s>标记开头和结尾。比如<s>文本<image>图像编码</image>文本</s>是一个混合图像和文字的输入数据。2)模型使用Transfomer的一种变体MANGETO作为主干架构,具有更好的训练稳定性和跨模块性能。3)使用纯语言指令数据集训练进行微调,让模型更好与人类指令对齐。
KOSMOS-1只是一个开端,仍有较大提升空间。1)首先从规模上看,KOSMOS1有大约13亿的参数,参数量相比gpt3的1750亿小很多,OpenAi的ChatGPT的成功的最重要原因就在于参数规模从gpt1开始不断增加,最终量变达到了质变。KOSMOS-1应该是微软近期在ChatGPT的成功的鼓舞下,快速验证大语言模型和多模态结合可行性的产品,如果未来加大投入,提升模型规模,模型的能力应该还有很大进步空间。2)其次在模态范围上,未来也有望做扩大。目前KOSMOS-1对图像和文本输入的处理做到了统一,都是经过编码后作为向量输入模型,如果多加入一个新的模态,比如视频或音频,只要有合适的编码方法,对模型本身而言,无非是多了标记为另一种语言的向量,乐观预计模型也有能力学到新模态的知识,从而扩展能力。
KOSMOS-1有望应用于AI客服、搜索、办公等领域。目前KOSMOS-1可以看作是有能力处理多模态输入的聊天机器人,有望应用于带图文交互的AI客服,搜索,或者处理图像或报表的办公领域,也可能用于根据图片进行新闻写作。伴随未来KOSMOS-1的进一步演化出输出多模态结果的能力,也有望为图像,视频,音乐等内容形式上的AIGC带来广泛应用。
实际上,NLP只是大模型的应用领域之一,图像、视频等领域也可使用Transformer大模型这一技术路径。Transformer虽然最早提出之时,用于NLP领域,但随着这一技术路径不断普及流行,图像、视频、音乐等领域也开始使用Transformer的技术路线,探索各类跨类别任务(比如根据文字指令输出图像等)
未来大模型的输入输出可以不仅限于文字,还可以包括图像、视频等多种形式,成为多模态模型。虽然当前影响力最强的ChatGPT是NLP模型,但大模型的能力远远不仅限于文字。输入文字生成图像、输入文字生成音乐、输入图像生成图像……此类功能现在已经可以通过AI大模型一定程度上实现,这类模型被称为多模态模型,实际上OpenAI的绘画AI模型DALL-E2就是目前最知名的多模态模型之一。除此之外,其他知名多模态模型还包括在AIGC界引起过巨大反响的Stable Diffusion,以及谷歌推出的音乐生成AI模型MusicLM等。
1)DALL-E 2:OpenAI推出的AI绘画模型,在前代DALL-E的基础之上有了很大提升,可以直接根据文字生成图像,也可以输入图像后、子现成图像上根据文字指令进行部分修改,功能强大。
2)Stable diffusion:由stability.ai公司在去年开源的AI绘画模型,可以通过输入文字生成对应图像。由于效果极佳,模型一经开源即在AIGC界引起极大反响。
多模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增。由于多模态模型使用图像、视频等多媒体数据进行训练,而此类文件大小远超文字。1)以Stable diffusion为例,根据公司官网信息披露,该模型训练数据集为LAION 5B的一个子数据集,而LAION 5B的数据包至少80TB,规模已经远超传统语言类大模型训练时使用的数据量(一般是GB级的)。该模型使用4000块英伟达A100训练了一个月,算力需求庞大,若按AWS官网上租用价格(32.77美元/小时/8 GPU)计算,则该模型训练成本可高达4000/8*32.77*24*30=1179.72万美元。2)无独有偶,DALL-E2模型在训练时使用了6.5亿张图片,按单张图片大小512*512像素(约256kb)估算,整体训练数据集大小高达约155TB。由此可见,多模态大模型的训练对算力芯片数量需求远胜语言类模型,算力需求有望激增。
我们认为,多模态是未来实现通用人工智能(artificial general intelligence,AGI)的关键。现实世界中的数据天然就是多模态的,人类通过综合运用多种感官,来感知和理解现实世界中的数据。通用人工智能必然也需要有能感知和理解多模态数据的能力。同时,多模态的人机交互,也是对用户最自然的与AI交互的方式。
从成本考虑,当前专注单一领域的人工智能,完成不同的任务需要定制化不同的模型。而多模态的通用人工智能,一个多模态的大模型有能力胜任众多不同任务,规模效应下会显著降低人工智能的实用落地成本。
传统的CNN演绎下,下游场景碎片化导致视觉应用解决问题倾向于单点模式。传统CNN模式下,视觉AI公司倾向于采用单点方式,在各个细分场景中做客制化落地,定制化程度相对较高。旷视科技联合创始人、CTO唐文斌在2022年9月的人工智能与产业融合论坛上谈道,现阶段的AI,一个核心挑战在于应用场景碎片化导致算法多样化。比如森林大火,识别有没有烟需要一种算法;仓库物流场景里,收货纸箱有没有破需要一种算法。算法多样化,一方面意味着需要规模化生产大量算法,另一方面需要考虑如何低成本生产每个算法。
CHATGPT多模态有望带来通用模式,显著提升模型生产效率与下游落地效率。例如,商汤科技的SenseCore AI大装置,它由模型层、深度学习平台、计算基础设施三个部分架构而成。其中,模型层的模型工厂可以大幅降低人工智能生产要素的成本,提高人工智能的生产效率,实现人工智能以自动化、自适应的方式进行生产和落地,模型工厂已开发超过 49000 个商用人工智能模型。
同时,在下游细分领域,细分领域龙头天然具有规模优势,而这种规模优势是AI自身的特质带来的:细分场景落地时需要结合行业Know-how、客户需求痛点以及数据,对相对通用的预训练大模型进行微调(fine-tune),训练后获得优质的细分领域模型。因此,壁垒来源其实是细分领域的行业know-how及稀缺行业数据,细分领域龙头的数据优势为其带来了规模优势。
我们认为,若多模态模型持续进步,将大幅提升AI视觉方向生产效率,图像、视频等应用将层出不穷涌现。其使用场景将远远不仅限于文字、问答与办公,打开有望未来AI在下游千行百业的应用空间,同时也使得下游细分领域龙头核心受益。
多模态GPT应用速度将会很快,国内有望复现类似模型并快速在细分场景落地,国内具备视频数据储备带来赶超机会。1)当前DALLE2、Stable diffusion等多模态模型已经拥有十分出色的表现,呈现出极强的实用性,且stable diffusion已经开源,激发下游大量活力。伴随着多模态大语言模型的不断涌现,多模态GPT落地应用速度将会持续加速。2)并且,一般而言,要训练一个能力强的模型,除了算法原理上的改进,训练数据的选择以及超参数的设置非常重要(超参数指训练过程中人工设置而非神经网络自主学习的参数,算法工程师的调参工作就是根据模型输出不断修改超参数)。相比OpenAI没有透露ChatGPT的训练数据和太多细节,微软KOSMOS-1论文列出了训练模型使用的具体数据集和很多超参数具体数据,有利于国内科技企业复现类似模型。从KOSMOS1论文看,主要作者为华裔,KOSMOS模型规模不大,国内具备海量视频数据优势,可能具备快速追赶、甚至超越的机会。
在1~5年内,多模态的输入输出主要是文本、图像和音频,一大应用场景会是智能办公,如智能PPT和其他office套件,可以通过理解用户语言需求和根据用户提供的多模态输入数据,产出办公成果。此外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也会有广泛应用。
在1~7年内,多模态会在综合机器视觉领域得到广泛应用,输入输出将包括3D模型,视频等。由于模型通用性的提高,部署成本降低,多模态会首先在视觉相关的工业领域上起到显著的规模效应,如缺陷检测,物流分拣,装修设计的3D建模等,将有很多行业在智能化的路上得到多模态的赋能。
1)多模态有望助力自动驾驶算法,赋能感知模块。首先自动驾驶系统的输入可能来自摄像头视频、激光雷达、高精地图和用户指令等多个来源,接受的信息类型就是多模态的,目前自动驾驶系统一般由感知模块融合各种输入,再由规控模块决策如何驾驶,多模态的发展有望给自动驾驶感知模块带来进步,甚至未来也可能将感知和规控合并,端到端的处理输入得到决策。其次自动驾驶需要非常充足的数据,除了采集真实驾驶时的数据,通过仿真数据快速测试模型也是自动驾驶的重要一环,多模态的进步,有助于高效构建仿真数据。车辆上的算力有限,未来能运行多大规模的模型有待观望,可能可以将部分运算放至云端处理,这对于网络会有更高要求,可能进一步拉动5G或数据中心等基建的需求。
2)多模态还有望提高3D模型生产效率,助力游戏内容与元宇宙构造。传统的 3D 制作需要耗费大量时间和人力成本。1)以2018年发售的游戏《荒野大镖客 2》为例,为了打造约 60 平方公里的虚拟场景、先后有六百余名美术历经8年完成。程序化内容生成技术(PCG,Procedural Content Generation)是一种在效能和可控度上介于纯手丁和 AIGC之间的产出方式。2022年的交互内容《黑客帝国:觉醒》中就采用了这项技术。在最新引擎技术的加持下,生成了虚拟城市共包括 700 万个实例化资产,每个资产由数百万个多边形组成,包括 7000 栋建筑、38000 辆可驾驶的车和超过 260 公里的道路。2)AIGC大大提升了数字人的制作效能。用户可以上传照片/视频,通过 AIGC生成写实类型的数字人,具有生成过程较短、成本低、可定制等特点。基于 AIGC的 3D 数字人建模已经初步实现产品化,目前精度可以达到次世代游戏人物级别,优势是可以开放程序接口,对接各种应用,因此潜力较大,范围较广,特别是C端的应用,可以通过便捷化的上传图片即可生成 3D数字人面部模型。
5~10年内,多模态将使得AI具备完整的与真实世界所有输入交互的能力,将极大提升人形机器人的能力。2022年10月,Tesla已经发布了Optimus人形机器人的原型机,多模态将赋予人形机器人强大的与世界和人类交互的能力。随着多模态模型的发展和机器人硬件的进步,未来整个人类社会的生产生活方式都将有颠覆性的变化。
AI技术迭代不及预期风险:若AI技术迭代不及预期,NLP技术理解人类意图水平未能取得突破,则对产业链相关公司会造成一定不利影响。
经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响,NLP技术应用落地将会受限。
行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。
具体分析详见2023年3月5日发布的报告《多模态GPT,比我们想象得更近》
分析师 刘高畅 分析师执业编号S0680518090001
特别声明:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者。请勿对本资料进行任何形式的转发。若您非国盛证券客户中的专业投资者,为保证服务质量、控制投资风险,请取消关注,请勿订阅、接受或使用本资料中的任何信息。因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!感谢您给予的理解和配合。
重要声明:本订阅号是国盛证券计算机团队设立的。本订阅号不是国盛计算机团队研究报告的发布平台。本订阅号所载的信息仅面向专业投资机构,仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。本资料仅代表报告发布当日的判断,相关的分析意见及推测可在不发出通知的情形下做出更改,读者参考时还须及时跟踪后续最新的研究进展。
本资料不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见,普通的个人投资者若使用本资料,有可能会因缺乏解读服务而对报告中的关键假设、评级、目标价等内容产生理解上的歧义,进而造成投资损失。因此个人投资者还须寻求专业投资顾问的指导。本资料仅供参考之用,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主作出投资决策并自行承担投资风险。
版权所有,未经许可禁止转载或传播。