服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

Open AI发布GPT-4,超预期还是低于预期?

日期: 来源:计算机文艺复兴收集编辑:李沐华、齐佳宏


行业更新系列


北京时间3月15日凌晨,Open AI发布ChatGPT-4。ChatGPT Plus的订阅者可以付费获得具有使用上限的GPT-4访问权限。在发布中,GPT-4展现了更强的能力,如:


  • 创造力:GPT-4比此前的版本更具创造性和协作性。它可以生成、编辑,并与用户一起迭代创意和技术写作任务,例如作曲、写剧本或学习用户的写作风格。


  • 图片输入:GPT-4可以接受图像作为输入,并基于此生成标题、分类和分析。


  • 支持更长的输入:GPT-4能够处理超过25,000字的文本,允许用例,如长形式的内容创建,扩展对话,以及文档搜索和分析等。


我们并不希望单纯对GPT-4的新能力进行罗列,而是希望谈谈我们眼中GPT-4相对于此前版本的一些值得关注的进步,以及我们的理解。


亮点1:多模态的输入方式


多模态的意义不仅在于场景拓展,也在于模型自身的能力提升。


  • 多模态的输入模式有望使得AI的应用场景被进一步拓展。多模态能力是目前市场中对于GPT-4讨论最多的点,但讨论往往集中在多模态相对于单模态在应用场景拓展方面的潜力。比如,大模型的能力能否被引入一些处理图片的场景中,让目前的产品变得更强大。



  • 我们认为,除场景拓展外,同时值得关注的是多模态是否能够使模型本身的能力获得增强,并解决更为复杂的问题。如同人类感知世界的过程是通过输入文本、图片、视频等各类信息实现的,那么多模态能否使得模型本身获得更强甚至额外的能力值得关注。根据Open AI发布的结果,GPT-4在处理复杂问题时的表现明显好于此前的GPT-3.5。比如在模拟律师资格考试的任务中,GPT-4的分数落在前10%的考生中,而GP4-3.5的分数则落在了后10%。




亮点2:训练结果的可预测性


大模型的训练结果变得更可预测。根据Open AI的表述,“GPT-4的一个重点是构建了一个可预测的深度学习堆栈”,可以使用不超过GPT-4计算量千分之一的训练模型对GPT-4一些性能进行准确的预测。这使得我们能够在花费较少代价的情况下让AI模型的目标更符合人类的意图和价值观。一方面能够加快模型的迭代效率,毕竟针对特定模型进行广泛的调优是不现实的;另一方面,也有助于解决目前“ChatGPT会生成一些对人类有害或者歧视性答案”的问题。



亮点3:大模型能力来自于模型自身而非强化学习


模型能力似乎不受强化学习(RLHF)的显著影响。我们认为,这是GPT-4发布中另一个非常值得关注的点。


  • GPT系列大模型中诸如“推理能力”等一系列能力是“涌现”出来的,目前对于这些能力是如何产生的并没有共识。一方面,ChatGPT确实表现出了一定的“乌鸦智能”(该比喻源自朱松纯教授,将乌鸦和鹦鹉对比,乌鸦具有“理解”能力,而鹦鹉的问答方式是“鹦鹉学舌”)。但另一方面,其技术路线是“深度学习+强化学习”(其中强化学习是指GhatGPT利用了人类的反馈信息直接优化语言模型)。那么,这些“涌现”出来的能力究竟是来源于大模型本身,还是仅仅是“引入了强化学习后机器的回答更符合人的语言习惯”而产生的表象?



  • 模型能力似乎并不来自强化学习。为了测试强化学习对于模型能力的影响,Open AI分别基于GPT-4基础模型和加入强化学习的GPT-4模型运行了一系列考试中的多项选择题部分。结果显示,在所有的考试中,基础的GPT-4模型的平均成绩为73.7%,而引入强化学习后的模型的平均成绩为74.0%,这意味着强化学习并没有显著改变基础模型的能力,换句话说,大模型的能力来自于模型本身。根据Open AI的表述,强化学习的意义更多地在于让模型的输出更符合人类的意图和习惯,而不是模型能力的提升(有时甚至会降低模型的考试成绩)。



合规声明:本文节选自正式入库研究报告,如需PDF原文件请后台留言。


  - end -  


欢迎加入行业交流群!

欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。


ChatGPT相关报告

ChatGPT研究框架(80页PPT)

产业调研:一线专家眼中的ChatGPT

产业调研:医疗认知智能技术进展

海外ChatGPT公司有哪些已经落地的商业模式(深度)

GPT-4 即将发布,带来什么产业边际变化?



相关阅读

  • 黄燕铭所长对话人工智能专家电话会议邀请

  • - end - 欢迎加入行业交流群!欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群
  • 百度文心一言发布会详细纪要

  • 产业调研系列李彦宏(创始人):其实百度在过去的十几年当中,一直在AI的研发上坚持投入。文心大模型第一个版本2019年就发布了,此后每年都要发布一个新版本。所以从这个意义上说,文心
  • 每周专家谈第34期:人工智能专家电话会

  • 想参加电话会议又不在白名单的朋友请后台留言,添加临时白名单! - end - 欢迎加入行业交流群!欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金
  • 实测文心一言,马保国很满意

  • 文/郝圆在全世界人民都仍处于GPT-4的震惊中时,百度终于发布了自己的同类产品——文心一言。蓝鲸财经记者在第一时间拿到了内测名额,为大家实测这款新一代大语言模型、生成式AI
  • 百度“文心一言”,就这?

  • 将深燃设为“星标⭐”第一时间收到文章更新深燃(shenrancaijing)原创作者 | 王敏编辑 | 金玙璠“冲刺”一个多月后,百度文心一言终于来了,但刚出道就遭到群嘲。 3月16日下午,百度
  • 传苹果iPhone SE4将采用京东方的OLED屏幕?

  • 在手机屏幕动辄6.5寸起的今天,很多人还是希望有一款小屏旗舰的,但iPhone SE之前的屏幕及刘海设计又不讨人喜欢,明年的iPhone SE4设计大改,用上6.1寸OLED屏,尺寸就非常合适了。iPh
  • 这4种能力,决定你的婚姻爱情能否幸福

  • “我原谅了他77次”前段时间,看了一部电影,叫《原谅他77次》。 故事中,女友Eva在笔记本中记录了男友让她伤心难过的77件事: 最讨厌看电影迟到,他居然因为下雨堵车迟到2小时;辞掉不
  • 晒单!杭州文化产业发展韧性强劲

  • 过去一年,杭州文化产业有哪些新气象、新局面?成绩单来了!近日,34家杭州影视、动画及相关产业企业组成的“文创杭军”亮相第27届香港国际影视展。展会现场,兼具杭州韵味、数字设计
  • 百度股价逆风翻盘 文心一言背后的荣光与野望

  • 文心一言正式开放邀请测试近8小时后,百度(BIDU.O)股价迎来了逆风翻盘。3月16日晚,在以3.57%的跌幅水平低开后15分钟内,百度股价迅速逼平涨跌临界线。经过约1小时的多空博弈后,最终

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 黄燕铭所长对话人工智能专家电话会议邀请

  • - end - 欢迎加入行业交流群!欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群
  • 百度文心一言发布会详细纪要

  • 产业调研系列李彦宏(创始人):其实百度在过去的十几年当中,一直在AI的研发上坚持投入。文心大模型第一个版本2019年就发布了,此后每年都要发布一个新版本。所以从这个意义上说,文心
  • 每周专家谈第34期:人工智能专家电话会

  • 想参加电话会议又不在白名单的朋友请后台留言,添加临时白名单! - end - 欢迎加入行业交流群!欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金
  • Open AI发布GPT-4,超预期还是低于预期?

  • 行业更新系列北京时间3月15日凌晨,Open AI发布ChatGPT-4。ChatGPT Plus的订阅者可以付费获得具有使用上限的GPT-4访问权限。在发布中,GPT-4展现了更强的能力,如:创造力:GPT-4比此
  • 银行倒闭为何反复出现?对经济的负面冲击有多大?

  • “日前,中国金融四十人论坛(CF40)特邀研究员、方德金控首席经济学家夏春撰文表示,硅谷银行(SVB)危机与1980年代的美国储贷危机高度相似,而当时的危机长达十年,上千家储贷协会(S&L)倒闭