服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

计算机孟灿|计算机行业深度研究:文心一言、GPT3.5及GPT-4的应用测评对比

日期: 来源:国金证券研究收集编辑:

金选·核心观点


投资逻辑


OpenAI于2023年3月14日发布最新版本多模态大模型GPT-4及其API;国内百度于3月16日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5(ChatGPT的原模型)和GPT-4的问答表现分别进行了测评。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI助手/客服/办公协同/推荐/诗词理解)等方面。


在常识和创作类问题中,三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观,但文心一言的分词功能有待提升;目前GPT-4尚未开放图像生成外部测试,文心一言的图像生成能力较为出色。


在归纳和推理类问题中,文心一言在演绎推理、逻辑推理等领域表现略逊于GPT系列模型,但在归纳总结类任务中表现较好;三大模型在情感推理类问题中仍有提升空间。


在数学和代码类问题中,GPT-3.5有更好的数学能力表现;GPT-3.5及GPT-4模型均完成了本文提出的代码生成问题,但并非最优解,文心一言代码问题识别能力有待加强。


在应用场景测试中,三大模型均能较好地完成AI生活助手、售后客服、产品推荐、办公场景文本生成等任务,但在文言文和古诗词理解运用方面表现不佳。
我们认为随百度文心及OpenAI合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升,各模型性能都有望实现进一步优化完善。


投资建议


文心一言、GPT-3.5、GPT-4三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及GPT-3.5、GPT-4,但已能够基本满足AI助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式AI模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在AI领域进行持续布局且拥有成熟应用场景的公司,如万兴科技、汉得信息、凌志软件、同花顺、金山办公。


风险提示
海外基础软硬件使用受限;应用落地不及预期;行业竞争加剧风险;测评问题有限导致结果或有偏差。




相关阅读

  • 【民生计算机】AI超级行情认知起点

  • 本周观点1.1 微软本周发布会是市场对AI超级行情的认知起点本周从GPT-4发布到微软Copilot正式面世仅仅间隔两天,后者带来大众日常使用的Office工具生产效率大幅跃迁的震撼冲
  • 230319 创业黑马 交流要点

  • 1.以北京政府为基础(这句话多次强调,也在会议中多次出现,政府牵头),成为阿里大模型的卖水人(也多次强调自己是卖水人角色),建立几十万级ai商圈。2.有一些市场因素(政府+客户资源),
  • 为什么更聪明的人并没有更快乐?

  • 编者按:智力是一种非常综合的心理能力,智力好的人知道如何解决问题,能更好地制定计划,懂得从错误中吸取教训,这些优势都足以让聪明人过上更快乐的生活,对吧?一项荟萃分析发现并非如
  • 黟县:把延时服务延伸到群众的心坎上

  • 攀爬、赛车、搭积木、赛龙舟......3月16日,黟县示范幼儿园的孩子们在老师带领下,尽情玩耍,享受延时服务带来的快乐,欢声笑语传遍校园每一个角落。“现在的延时服务真好,我干活时
  • 人人都想当网红——这条路到底有什么不好?

  • 编者按:随着网络和社交平台的发展,越来越多的人都希望通过网络走红来谋生,这也是整个社会发展过程中必然会出现的一种现象。本文来自编译,作者分享了这个行业的现状,同时指出了成
  • Transformer在量化投资中的应用

  • 量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章