ChatGPT技术篇：智能背后的秘密--粉丝服务平台-粉丝头条-fensifuwu.com

日期： 2023-02-28 17:32:39 来源：国盛计算机畅想收集编辑：刘高畅/陈泽青

核心观点

ChatGPT表现惊艳，网站流量一路狂飙式成长。根据数据统计机构Similarweb的估计，chat.openai.com网站（即ChatGPT官网）在2023/1/27-2023/2/3这一周吸引的每日访客数量高达约2500万，在1月31日的流量高峰日，该网站吸引了2800万次访问。并且在1/3-2/3这一个月里，该网站的流量平均每天增长3.4%，增速惊人。

从Transformer到ChatGPT，有哪些历史性突破？ChatGPT用户数高速增长的根本原因，来源于其突破性的表现，其中最突出的有两点体现：1）ChatGPT与人类“对齐”了偏好，其应答更适应人类习惯，并且能驳回一些反道德的提问，展现出显著优于前代的智能度。2）ChatGPT具备了思维链（Chain-of-Thought，CoT）能力，能够处理一定程度的复杂思维逻辑。3）ChatGPT在算数、国际音标转写、单词解读、问答、事实性问答、基础概念映射、多任务自然语义理解、上下文单词理解等8个指标上表现出全面综合的能力。

量变到质变，规模超过特定阈值后模型性能陡增。根据谷歌发布的论文《Emergent Abilities of Large Language Models》，可以看到多个NLP任务随着模型规模扩大的性能变化曲线：前期性能和模型规模大致呈线性关系；然而当模型规模大到一定程度时，任务性能有了明显的“飞升”。

海量代码训练，模型习得代码背后隐含的逻辑能力。根据熵简科技介绍，“代码”可以理解为一种具备高度逻辑性的文本语料，不具备强逻辑性的代码会无法执行，而不像普通文本语料那样有着较高的逻辑自由度。模型从对大量代码的学习过程中，逐渐掌握了隐藏在代码背后的抽象能力与逻辑能力，进而涌现出我们在ChatGPT上感受到的“智能”。

训练过程加入了人类反馈，模型偏好向人类看齐。通过有人类反馈的加强学习（RLHF）训练，人类手动对AI给出的回复进行排名，让AI模型理解人类偏好。由于训练过程中加入了人类反馈，有别于前代GPT-3单纯使用海量数据的训练方法，ChatGPT能够更好地理解用户指令，并作出反应。

投资建议。建议关注：1）应用型公司：金山办公、光云科技、当虹科技、云赛智联、同花顺、万兴科技、立方数科、神思电子、宇信科技、360、高伟达、寺库、知乎、汉王科技等；2）算力公司：浪潮信息、中科曙光、海光信息、寒武纪、景嘉微、世纪华通、光通信产业链公司；3）相关技术公司：科大讯飞、云从科技、拓尔思、海天瑞声、海康威视、萤石网络、百度、阿里、腾讯；4）软件开发效率提升：赛意信息、润和软件、法本信息、游戏公司等；5）机器人：三花智控、鸣志电器、绿的谐波、晶品特装、微创机器人等。

风险提示：AI技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。

报告正文

从Transformer到ChatGPT，有哪些历史性突破？

ChatGPT流量以每日3.4%的速度快速成长，每日用户数已超2500万。根据数据统计机构Similarweb的估计，chat.openai.com网站（即ChatGPT官网）在2023/1/27-2023/2/3这一周吸引的每日访客数量高达约2500万，在1月31日的流量高峰日，该网站吸引了2800万次访问。并且在1/3-2/3这一个月里，该网站的流量平均每天增长3.4%，增速惊人。

ChatGPT用户数高速增长的根本原因，来源于其突破性的表现，其中最突出的有两点体现：

1）ChatGPT与人类“对齐”了偏好，其应答更适应人类习惯，并且能驳回一些反道德的提问，展现出显著优于前代的智能度。ChatGPT模型比以往的人机对话模型（例如GPT3等）更强大，例如，其敢于质疑不正确的前提和假设、主动承认错误以及一些无法回答的问题、主动给拒绝不合理的问题、提升了对用户意图的理解以及结果的准确性。与之前的GPT3不同，相比于此前海量学习数据进行训练，ChatGPT中，人对结果的反馈成为了AI学习过程中的一部分。初次之外，ChatGPT甚至会主动驳回一些危险提问，例如：如果提问“如何霸凌John”，上一代的模型InstructGPT会给出几种方法作为解答，而ChatGPT给出的答案则是“霸凌是不对的”。

2）ChatGPT具备了思维链（Chain-of-Thought，CoT）能力，能够处理一定程度的复杂思维逻辑。对于一些逻辑较为复杂的问题，直接向大规模语言模型提问可能会得到不准确的回答，但是如果以提示（prompt）的方式在输入中给出有逻辑的解题步骤（即将复杂问题拆解为多个子问题解决再从中抽取答案）的示例后再提出问题，大模型就能给出正确题解。有时，甚至不用给示例，在输入后面接一句“Let’s think step by step”，模型的输出就是一步一步“思考”后的各个子问题的结果，再将该输出拼到输入后构造第二次输入数据，大模型就能进一步将上一步的输出整合，得出正确的复杂问题的解。

ChatGPT背后的秘密：智能来自何方？

2.1 量变到质变，规模超过特定阈值后模型性能陡增

随着算力的不断提升，语言模型已经从最初基于概率预测的模型发展到基于Transformer架构的预训练语言模型，并逐步走向大模型的时代。当模型规模较小时，模型的性能和参数大致符合比例定律（scaling law），即模型的性能提升和参数增长基本呈线性关系。然而，当GPT-3 / ChatGPT这种千亿级别的大规模模型被提出后，人们发现其可以打破比例定律，实现模型能力质的飞跃。这些能力也被称为大模型的“涌现能力”（如理解人类指令等等）。

根据谷歌发布的论文《Emergent Abilities of Large Language Models》，可以看到多个NLP任务随着模型规模扩大的性能变化曲线：前期性能和模型规模大致呈线性关系；然而当模型规模大到一定程度时，任务性能有了明显的“飞升”，例如在算数、国际音标转写、单词解读、问答、事实性问答、基础概念映射、多任务自然语义理解、上下文单词理解等任务上。因此，当前研究通常以百亿/千亿级别参数量作为LLM的分水岭。

2.2 海量代码训练，模型习得代码背后隐含的逻辑能力

学界普遍推测，ChatGPT的复杂思维能力（CoT能力）来自于代码训练。根据熵简科技介绍，ChatGPT的背后是Text-davinci-002模型，但如果回溯ChatGPT的“模型家谱”， Text-davinci-002模型其实是基于Code-davinci-002模型经过指令微调的产物。如果进一步回溯到起点，对于没有接受过代码数据训练的GPT-3模型，它的复杂推理能力是很弱的。GPT-3的一个分支对代码数据进行了专项训练，Codex模型中代码数据量约为159G，基于此产生的Code-davinci-002模型神奇的具备了思维推理能力。由于这一能力近来才出现，学界对于它是如何产生的尚无定论，但学界普遍推测：在模型训练的过程中，是否引入“代码数据集”，很有可能是模型是否具备复杂思维能力的关键变量。

代码是一种强逻辑性的文字，模型在学习代码的过程中习得了逻辑能力。“代码”可以理解为一种具备高度逻辑性的文本语料，不具备强逻辑性的代码会无法执行，而不像普通文本语料那样有着较高的逻辑自由度。模型从对大量代码的学习过程中，逐渐掌握了隐藏在代码背后的抽象能力与逻辑能力，进而涌现出我们在ChatGPT上感受到的“智能”。

2.3

训练过程加入了人类反馈，模型偏好向人类看齐

通过有人类反馈的加强学习（RLHF）训练，ChatGPT能够更好地理解人类偏好，从而给出更符合人类习惯的回答。ChatGPT使用RLHF方法训练了一个初始模型：人类AI训练员提供对话，他们在对话中扮演双方——用户和AI助手，AI训练员可以访问模型编写的对话回复，以帮助AI调整回复内容。为了创建强化学习的奖励模型，该研究需要收集比较数据，其中包含两个或多个按质量排序的模型回复。该研究收集了AI训练员与聊天机器人的对话，并随机选择一条模型编写的消息，抽取几个备选回复，让AI训练员对这些回复进行排名。由于训练过程中加入了人类反馈，有别于前代GPT-3单纯使用海量数据的训练方法，ChatGPT能够更好地理解用户指令，并作出反应。

RLHF具体训练步骤如下：

l 第一步：首先从大量的包含人类真实意图的指令集合中采样指令作为输入数据，并聘请专职标注员标注这些指令的输出，这部分相对而言是一个高质量的小数据集。数据收集完成后，使用GPT-3.5在该数据集上进行有监督的微调（supervised fine-tuning）。

l 第二步：得到上一步微调好的GPT-3.5之后，再次从指令集合中采样指令作为输入数据，从GPT-3.5得到多个不同的结果，并聘请专职标注员标注这些输出的好坏顺序，例如输出D>输出C>输出A>输出B。由于只需要标注模型不同输出的好坏，这部分标注的成本会降低很多，因此数据规模也会较大。得到这些人工标注的输出顺序之后，可以训练得到一个打分（reward）模型。

l 第三步，获得打分模型之后，接着从指令集合中采样一些新的指令作为输入数据，并结合打分模型，使用PPO（一种强化学习算法）方式来训练得到最终的ChatGPT。

投资建议

建议关注：

1）应用型公司：金山办公、光云科技、当虹科技、云赛智联、同花顺、万兴科技、立方数科、神思电子、宇信科技、360、高伟达、寺库、知乎、汉王科技等；

2）算力公司：浪潮信息、中科曙光、海光信息、寒武纪、景嘉微、世纪华通、光通信产业链公司；

3）相关技术公司：科大讯飞、云从科技、拓尔思、海天瑞声、海康威视、萤石网络、百度、阿里、腾讯；

4）软件开发效率提升：赛意信息、润和软件、法本信息、游戏公司等；

5）机器人：三花智控、鸣志电器、绿的谐波、晶品特装、微创机器人等。

风险提示

AI技术迭代不及预期风险：若AI技术迭代不及预期，NLP技术理解人类意图水平未能取得突破，则对产业链相关公司会造成一定不利影响。

经济下行超预期风险：若宏观经济景气度下行，固定资产投资额放缓，影响企业再投资意愿，从而影响消费者消费意愿和产业链生产意愿，对整个行业将会造成不利影响，NLP技术应用落地将会受限。

行业竞争加剧风险：若相关企业加快技术迭代和应用布局，整体行业竞争程度加剧，将会对目前行业内企业的增长产生威胁。

具体分析详见2023年2月26日发布的报告《ChatGPT技术篇：智能背后的秘密》

分析师刘高畅分析师执业编号S0680518090001

特别声明：《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者。请勿对本资料进行任何形式的转发。若您非国盛证券客户中的专业投资者，为保证服务质量、控制投资风险，请取消关注，请勿订阅、接受或使用本资料中的任何信息。因本订阅号难以设置访问权限，若给您造成不便，烦请谅解！感谢您给予的理解和配合。

重要声明：本订阅号是国盛证券计算机团队设立的。本订阅号不是国盛计算机团队研究报告的发布平台。本订阅号所载的信息仅面向专业投资机构，仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读，若因对报告的摘编而产生歧义，应以报告发布当日的完整内容为准。本资料仅代表报告发布当日的判断，相关的分析意见及推测可在不发出通知的情形下做出更改，读者参考时还须及时跟踪后续最新的研究进展。

本资料不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议，不能够等同于指导具体投资的操作性意见，普通的个人投资者若使用本资料，有可能会因缺乏解读服务而对报告中的关键假设、评级、目标价等内容产生理解上的歧义，进而造成投资损失。因此个人投资者还须寻求专业投资顾问的指导。本资料仅供参考之用，接收人不应单纯依靠本资料的信息而取代自身的独立判断，应自主作出投资决策并自行承担投资风险。

服务粉丝

ChatGPT技术篇：智能背后的秘密

文章推荐

相关阅读

国君研究 | 周期的春季行情展望——国君周期论剑周观点

【国盛计算机】数字中国规划重磅落地，重视三大数字经济方向

查理芒格：“美国应该禁止加密货币”

ChatGPT中国变形记

产业调研：一线专家眼中的ChatGPT

【太平洋计算机曹佩团队】ChatGPT发布有望引发人工智能新浪潮

浙商证券陈杭：AIGC算力时代带来中国的六大投资机会

什么情况？华尔街大行、国内外多所高校禁用ChatGPT

浙商看牛市‖如果美债持续上行

中信建投 | 好声音+短视频：今日投资精华

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章