服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

GPT4展望:多模态,CHATGPT下一站

日期: 来源:国盛计算机畅想收集编辑:刘高畅/陈泽青


核心观点


GPT4有望于2023年发布。根据《财富》杂志报道,OpenAI还有更多创新蓄势待发,OpenAI在贝塔测试版GPT-4中采用了更强大的大语言模型,预计该版本将于今年甚至很快发布。关于GPT4的猜测众说纷纭,尘嚣甚上,且公开信息较为有限,我们在此总结各路信息、展望未来,供各位投资者参考:


相较前代,GPT4可能不会有参数量上的巨幅提升,而是在其他方向寻求提高。在2023年1月18日的一场公开采访中,当OpenAI的CEO Sam Altman被问及一张在推特上被疯转的图表时(该图表称GPT-3拥有1750亿参数,而GPT-4可能拥有100万亿参数),Altman称其 "完全是胡说"。这证明了即将到来的GPT4可能不会往一味巨幅扩大参数量的方向去走,而可能向其他方向寻求提升。


GPT4有可能是一个多模态模型,可用于图像等领域。根据The Seattle Times新闻报道,GPT4可能是一个很像ChatGPT的系统,只生成文本;或者它也可以把图像和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况,但是OpenAI还没有确定新系统是否会发布涉及图像的功能。此外,根据财富杂志报道,OpenAI也确实在开发一款通过文字能生成视频的AI模型。


GPT4转向多模态,未来输入输出可能出现图像、视频等形态,有望打开下游千行百业应用空间。NLP只是大模型的应用领域之一,未来大模型的输入输出可以不仅限于文字,虽然当前影响力最强的ChatGPT是NLP模型,还可以包括图像、视频等多种形式,成为多模态模型,例如OpenAI的绘画AI模型DALL-E2,在AIGC界引起过巨大反响的Stable Diffusion等等。


传统的CNN演绎下视觉应用解决问题都是单点模式,CHATGPT多模态有望带来通用模式。传统CNN模式下,视觉AI公司倾向于采用单点方式,在各个碎片场景中做客制化落地,定制化程度相对较高;若转向大模型模式,GPT4的多模态能力有望带来通用化的模式,显著提升AI模型生产效率。例如,商汤科技的SenseCore AI大装置中,模型层的模型工厂可以大幅降低人工智能生产要素的成本,提高人工智能的生产效率,实现人工智能以自动化、自适应的方式进行生产和落地,模型工厂已开发超过 49000 个商用人工智能模型。我们认为,若GPT4转向多模态,图像、视频等应用将层出不穷涌现。其使用场景将远远不仅限于文字、问答与办公,打开有望未来AI在下游千行百业的应用空间,进一步打开市场想象力。


投资建议。建议关注:1)视频场景:当虹科技、数码视讯;2)视觉场景:海康威视、大华股份、云从科技、商汤科技。



风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。





报告正文



01

GPT4展望:发力未必在规模,有望转向多模态


GPT4有望于2023年发布。根据《财富》杂志报道,OpenAI还有更多创新蓄势待发,OpenAI在贝塔测试版GPT-4中采用了更强大的大语言模型,预计该版本将于今年甚至很快发布。关于GPT4的猜测众说纷纭,尘嚣甚上,且公开信息较为有限,我们在此总结各路信息、展望未来,供各位投资者参考:
 
相较前代,GPT4可能不会有参数量上的巨幅提升,而是在其他方向寻求提高。在2023年1月18日的一场公开采访中,当OpenAI的CEO Sam Altman被问及一张在推特上被疯转的图表时(该图表称GPT-3拥有1750亿参数,而GPT-4可能拥有100万亿参数),Altman称其 "完全是胡说"。这证明了即将到来的GPT4可能不会往一味巨幅扩大参数量的方向去走,而可能向其他方向寻求提升。


l GPT4有可能是一个多模态模型,可用于图像等领域。根据The Seattle Times新闻报道,GPT4可能是一个很像ChatGPT的系统,只生成文本;或者它也可以把图像和文字结合起来。一些风投机构和微软员工已经看到了它的运行情况,但是OpenAI还没有确定新系统是否会发布涉及图像的功能。此外,根据财富杂志报道,OpenAI也确实在开发一款通过文字能生成视频的AI模型。
 
实际上,NLP只是大模型的应用领域之一,图像、视频等领域也可使用Transformer大模型这一技术路径。Transformer虽然最早提出之时,用于NLP领域,但随着这一技术路径不断普及流行,图像、视频、音乐等领域也开始使用Transformer的技术路线,探索各类跨类别任务(比如根据文字指令输出图像等)
 
未来大模型的输入输出可以不仅限于文字,还可以包括图像、视频等多种形式,成为多模态模型。虽然当前影响力最强的ChatGPT是NLP模型,但大模型的能力远远不仅限于文字。输入文字生成图像、输入文字生成音乐、输入图像生成图像……此类功能现在已经可以通过AI大模型一定程度上实现,这类模型被称为多模态模型,实际上OpenAI的绘画AI模型DALL-E2就是目前最知名的多模态模型之一。除此之外,其他知名多模态模型还包括在AIGC界引起过巨大反响的Stable Diffusion,以及谷歌推出的音乐生成AI模型MusicLM等。
 
1)DALL-E 2:OpenAI推出的AI绘画模型,在前代DALL-E的基础之上有了很大提升,可以直接根据文字生成图像,也可以输入图像后、子现成图像上根据文字指令进行部分修改,功能强大。


2)Stable diffusion:由stability.ai公司在去年开源的AI绘画模型,可以通过输入文字生成对应图像。由于效果极佳,模型一经开源即在AIGC界引起极大反响。


多模态模型训练数据为图像、视频等,规模远大于语言类模型,算力需求有望激增。由于多模态模型使用图像、视频等多媒体数据进行训练,而此类文件大小远超文字。1)以Stable diffusion为例,根据公司官网信息披露,该模型训练数据集为LAION 5B的一个子数据集,而LAION 5B的数据包至少80TB,规模已经远超传统语言类大模型训练时使用的数据量(一般是GB级的)。该模型使用4000块英伟达A100训练了一个月,算力需求庞大,若按AWS官网上租用价格(32.77美元/小时/8 GPU)计算,则该模型训练成本可高达4000/8*32.77*24*30=1179.72万美元。2)无独有偶,DALL-E2模型在训练时使用了6.5亿张图片,按单张图片大小512*512像素(约256kb)估算,整体训练数据集大小高达约155TB。由此可见,多模态大模型的训练对算力芯片数量需求远胜语言类模型,算力需求有望激增。


传统的CNN演绎下,下游场景碎片化导致视觉应用解决问题倾向于单点模式。传统CNN模式下,视觉AI公司倾向于采用单点方式,在各个细分场景中做客制化落地,定制化程度相对较高。旷视科技联合创始人、CTO唐文斌在2022年9月的人工智能与产业融合论坛上谈道,现阶段的AI,一个核心挑战在于应用场景碎片化导致算法多样化。比如森林大火,识别有没有烟需要一种算法;仓库物流场景里,收货纸箱有没有破需要一种算法。算法多样化,一方面意味着需要规模化生产大量算法,另一方面需要考虑如何低成本生产每个算法。


CHATGPT多模态有望带来通用模式,显著提升模型生产效率与下游落地效率。例如,商汤科技的SenseCore AI大装置,它由模型层、深度学习平台、计算基础设施三个部分架构而成。其中,模型层的模型工厂可以大幅降低人工智能生产要素的成本,提高人工智能的生产效率,实现人工智能以自动化、自适应的方式进行生产和落地,模型工厂已开发超过 49000 个商用人工智能模型。

我们认为,若GPT4转向多模态,将大幅提升AI视觉方向生产效率,图像、视频等应用将层出不穷涌现。其使用场景将远远不仅限于文字、问答与办公,打开有望未来AI在下游千行百业的应用空间,进一步打开市场想象力。



02

投资建议

建议关注:

1)视频场景:当虹科技、数码视讯;
2)视觉场景:海康威视、大华股份。

03

风险提示


AI技术迭代不及预期风险:若AI技术迭代不及预期,NLP技术理解人类意图水平未能取得突破,则对产业链相关公司会造成一定不利影响。

经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响,NLP技术应用落地将会受限。

行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。

具体分析详见2023年2月28日发布的报告《GPT4展望:多模态,CHATGPT下一站》

分析师 刘高畅 分析师执业编号S0680518090001


特别声明:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者。请勿对本资料进行任何形式的转发。若您非国盛证券客户中的专业投资者,为保证服务质量、控制投资风险,请取消关注,请勿订阅、接受或使用本资料中的任何信息。因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!感谢您给予的理解和配合。

 

重要声明:本订阅号是国盛证券计算机团队设立的。本订阅号不是国盛计算机团队研究报告的发布平台。本订阅号所载的信息仅面向专业投资机构,仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。本资料仅代表报告发布当日的判断,相关的分析意见及推测可在不发出通知的情形下做出更改,读者参考时还须及时跟踪后续最新的研究进展。


本资料不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见,普通的个人投资者若使用本资料,有可能会因缺乏解读服务而对报告中的关键假设、评级、目标价等内容产生理解上的歧义,进而造成投资损失。因此个人投资者还须寻求专业投资顾问的指导。本资料仅供参考之用,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主作出投资决策并自行承担投资风险。

 

版权所有,未经许可禁止转载或传播。


相关阅读

  • 【国盛计算机】多模态GPT,比我们想象的更近

  • 核心观点微软推出多模态大语言模型KOSMOS-1,印证大语言模型能力可延伸至NLP外领域。该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生
  • 踏空的很难过?

  • starhill应该有人踏空了,最佳买点就是上周五到 本周3上午。我上周五入场个股。Ps:踏空的不再建议进入了,现在进就是给我们抬轿子了。易尔奇 我现在90%的货基在手,这肯定是标准的
  • 3月6日投资提示:瑞达转债,科利转债不下修

  • 花园生物:可转债3月6日申购纵横通信:股东拟减持不超2%股份新致软件:实控人拟1500万至3000万元增持公司股份奥飞数据:控股股东拟4.04亿元向公司董秘转让5%公司股份科利转债,瑞达转
  • 台湾对美国到底多重要?

  • 文 | 猫骑士《台湾沦陷后的世界》——无意识的务实与有意识的呓语近日,媒体报道俄军已对乌军重兵防御的巴赫穆特完成合围,这场已经持续一年双方伤亡数十万人的战争似乎看到了
  • TensorFlow图像分类教程

  • 点击下方卡片,关注“新机器视觉”公众号重磅干货,第一时间送达来源:阿里云云栖号导读:深度学习算法与计算机硬件性能的发展,使研究人员和企业在图像识别、语音识别、推荐引擎和机
  • 中金 | 海外:从盈利前景看美股“韧性”

  • 从盈利前景看美股“韧性”——2023年2月27日~3月5日摘要1月以来美国主要数据普遍好于预期,推升了通胀和加息预期,美股却显示相当韧性。我们在本文中从企业财报微观视角,透视需求

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • GPT4展望:多模态,CHATGPT下一站

  • 核心观点GPT4有望于2023年发布。根据《财富》杂志报道,OpenAI还有更多创新蓄势待发,OpenAI在贝塔测试版GPT-4中采用了更强大的大语言模型,预计该版本将于今年甚至很快发布。关
  • 【国盛计算机】多模态GPT,比我们想象的更近

  • 核心观点微软推出多模态大语言模型KOSMOS-1,印证大语言模型能力可延伸至NLP外领域。该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生
  • 【国盛计算机】国产AI算力生态一览

  • 核心观点ChatGPT大模型计算量高速扩张,算力需求陡增。1)以ChatGPT为代表的大模型参数量、数据量高度扩张,GPT-3模型参数量高达1750亿,大模型训练需要强大算力支撑。2)当前Google
  • 国信研究 | 研究周刊(02.27-03.05)

  • No.1宏观从一般公共预算来看,大部分地区在预算报告中提高了 2023 年一般公共预算收入预计增速。不少省份判断今年经济运行有望总体回升,叠加各地产业等优势,预计带动财政收入出