【新智元导读】为更好地理解ChatGPT,这里我们简要介绍其历史,讨论其优点和不足,指出几个潜在应用,最后分析它对可信赖人工智能、会话搜索引擎和通用人工智能(artificial general intelligence, AGI)发展的影响。
最近,OpenAI发布了对话生成预训练模型Transformer(Chat Generative Pre-trained Transformer,ChatGPT)(Schulman et al., 2022),其展现的能力令人印象深刻,吸引了工业界和学术界的广泛关注。这是首次在大型语言模型(large language model, LLM)内很好地解决如此多样的开放任务。ChatGPT成为历史上增长最快的消费者应用程序,在发布后两个月内,吸引了1亿月度活跃访客(Hu,2023)。自发布以来,因其高超的对话能力,已引爆社会关注。它可以回答后续提问,拒绝不当请求,挑战错误前提,并承认自己错误(Schulman et al., 2022)。它获得许多涌现能力,如高质量对话、复杂推理、思维链(CoT)(Wei et al., 2022b)、零/少样本学习(语境学习)、跨任务泛化、代码理解/生成等等。论文地址:https://link.springer.com/article/10.1631/FITEE.2300089这些令人印象深刻的能力,ChatGPT是如何获得的?其主要得益于大型语言模型,它利用语言模型(LM)在大规模数据上训练巨大的神经网络模型,如Transformer(Vaswani et al., 2017)。语言模型旨在根据上文预测下一个词的概率,是文本中的自监督信号。互联网上存在大规模文本数据,所以通过语言模型对模型进行预训练是顺理成章的。现有研究表明,模型规模和数据量越大,性能越好。当模型和数据规模达到一定程度时,模型将获得涌现能力。例如,OpenAI发布的GPT-3(Brown et al., 2020)有1750亿个参数。它的预训练采用超级计算机(285 000个CPU,10 000个GPU)在45 TB文本数据上完成。而模型也由此在零样本学习任务上实现了巨大性能提升,具有小模型所不具备的语境学习能力。随后,更多策略——如代码预训练(Chen et al., 2021)、指令微调(Wei et al., 2022a)和基于人类反馈的强化学习(reinforcement learning from human feedback,RLHF)(Stiennon et al., 2020)——被用于进一步提高推理能力、长距离建模和任务泛化。大型语言模型提供了一种接近通用人工智能的可能方式。除OpenAI,还有许多组织在探索大型语言模型,从而促进人工智能蓬勃发展,如谷歌发布Switch-Transformer(Fedus et al., 2021)、百度发布ERNIE 3.0(Sun et al., 2021)、华为发布Pangu(Zeng et al., 2021)、智源发布CPM(Zhang et al., 2021),阿里发布PLUG。此外,谷歌在OpenAI之后发布了聊天机器人Bard。我们认为,可信的人工智能、对话式搜索引擎和通用人工智能是人工智能未来方向。接下来,我们将讨论ChatGPT的潜力、前景和局限。
如图1所示,ChatGPT是InstructGPT(Ouyang et al., 2022)的后续模型,起源于GPT-3(Brown et al., 2020)。与之前GPT模型相比,GPT-3中的参数基本增加到1750亿,构造了一些重要涌现能力,如语境学习(Brown et al., 2020)。具体而言,GPT-3可以按照输入中的范例完成各种自然语言处理(natural language processing, NLP)任务,而无需进一步训练。从图1和图2来看,有3种基本策略可以最终从GPT-3得出ChatGPT。在预训练阶段,采用代码预训练,将代码语料与文本语料结合进行预训练。然后,在微调阶段使用指令调整和基于人类反馈的强化学习来学习跨任务泛化,并与人类反馈相一致。这些技术帮助它知道更多,以及不知道更少的知道(如语义推理、常识性知识等)和不知道(如逻辑推理)。详情如下:1. 代码预训练:除文本外,代码也被添加到预训练语料库中(Chen et al., 2021)。事实上,代码预训练是大型语言模型常用的策略,例如PaLM(Chowdhery et al., 2022)、Gopher(Rae et al., 2021)和Chinchilla(Hoffmann et al., 2022),它不仅可以提升代码理解和生成的能力,还可以提高长距离语境理解,并带来思维链推理的新兴能力(Wei et al., 2022b)。具体而言,该模型可通过一些示例生成推理过程本身,从而提高回答问题的准确性。代码预训练有助于模型获得这些能力的原因,有待通过更详细的实验来探索。2. 指令调整:为使模型行为与人类意图一致,OpenAI研究人员收集了一组由人类所写的提示和期望的输出,并在该数据集上进行监督学习(Ouyang et al., 2022)。事实上,指令微调成为大型语言模型——如FLAN(Wei et al., 2022a)、T0(Sanh et al., 2022)和Self-Instruct(Wang et al., 2022)——的一项流行技术,因为它具有任务泛化的能力。请注意,指令模板的多样性至关重要,该特性有助于模型在不同任务中学习归纳。此外,指令微调导致模型一步一步思考问题,从而减少缩放法则问题。不同于传统微调范式(Devlin et al., 2019),指令微调可以在不改变模型参数的情况下被用于新任务。我们认为这是人工智能的巨大进步,可能影响机器学习的发展。3. 基于人类反馈的强化学习:为进一步使模型行为与人类反馈保持一致,OpenAI研究人员收集人类对不同模型输出的偏好数据,训练一个有效的奖励模型(Ouyang et al., 2022)。这个奖励模型可以通过近似策略优化(PPO)来优化生成模型(在强化学习设置中也被称为策略模型)(Schulman et al., 2017))。现有研究也通过使用基于人类反馈的强化学习与人类保持一致,使模型产生信息丰富、有帮助、正确和无害的回答,并拒绝非法问题(Bai et al., 2022; Glaese et al., 2022)。除了训练技术,ChatGPT部署过程也很重要。为减少相关风险,其使用各种策略进行迭代部署。首先,开发人员在部署前进行安全评估来分析风险。然后,对少量用户进行Beta测试,并研究新产生的案例。最后,监督使用情况并进行回顾性审查。图1 从GPT-3到ChatGPT的演变图2 ChatGPT涌现能力和策略之间的关系。指令学习通过与人类对齐,提高ChatGPT模型「知道知道」和「知道不知道」的能力,以及减少「不知道知道」和「不知道不知道」的限制。同时,代码预训练通过逐步思考,帮助模型回答其不知道的问题
ChatGPT的出现已经引领关于人工智能未来发展的讨论。在此,我们提出几个观点,可能会引起对其带来影响的讨论。1. 可信人工智能:虽然ChatGPT有能力完成各种基于文本的现实世界的任务,但它会不可避免地产生与事实不符的内容,这限制了其应用场景。此外,它使用的是隐性神经表征,使得我们很难理解其内部运作方式。因此,我们认为,在当前人工智能发展阶段,可信人工智能应得到更多关注(Wang et al., 2022)。由于事实验证是自然语言处理社区的典型研究问题,如何提高开放领域中人工智能生成文本的事实性仍是一项挑战。如果我们用ChatGPT作为这种黑箱模型的解释器,则有可能在性能和可解释性之间获得良好平衡。这样的解释是否可信,以及如何使这种信任突破专家领域并被大众接受,应是下一阶段大型语言模型研究最重要的问题之一。2. 对话式搜索引擎:搜索引擎领域已被ChatGPT重新激活。作为OpenAI的重要合作伙伴,微软首先将其整合到其搜索引擎产品,即必应。新的必应可以以对话系统的形式回应用户查询,并在回应中添加引文,其中包括检索到的网页。通过这种方式,搜索引擎和用户之间的互动更加自然,ChatGPT扮演了信息提取/总结的角色,减轻了浏览无用网页的负担。谷歌发布了名为Bard的聊天机器人,也可被整合到搜索引擎中。我们相信ChatGPT正在改变传统搜索引擎的使用方式,并对该领域产生深刻影响。3. 通用人工智能:尽管ChatGPT通过从算法智能到语言智能的自我进化,承担了接近通用人工智能的潜力(Wang et al., 2023),但如果我们真的希望在未来发展出真正的通用人工智能,可能需要感知的加入,因为没有表示的智能实际上比具有自然语言理解能力的智能更早出现(Brooks,1991)。此外,根据Lighthill报告(Lighthill, 1973),大多数基于规则的学习方法都存在组合爆炸问题。ChatGPT似乎面临同样问题,需在未来加以解决。此外,常识和一些基本数学计算对人类而言很简单,但对ChatGPT来说很难。尽管其在人工智能的发展中迈出令人惊讶的一步,Moravec悖论(Moravec, 1988)——人类难以解决的问题,人工智能却能轻易解决,反之亦然——仍然成立。也许将ChatGPT或更强大的人工智能产品与人机增强智能结合——无论人在环中、认知计算,还是二者兼而有之——都值得进一步研究(Huang et al., 2022; Xue et al., 2022)。此外,我们可以考虑建立一个虚拟的平行系统,允许其通过自我提升来改进,直至未来不再需要人类反馈(Li et al., 2017)。总之,作为大型语言模型的代表,结合了许多前沿自然语言处理技术的ChatGPT无疑引领了现阶段人工智能的发展,并改变了我们的日常生活。本文简要分析了它的潜力和前景,也指出其局限。我们相信,ChatGPT可以改变传统人工智能研究方向,并引发各种应用,同时为接近通用人工智能提供一种可能的方式。