引言
我们都羡慕过多啦a梦身上的四次元口袋,每次心里默念一个期待,想要的东西触手可达;我们也惊叹过斯派克·琼斯在大银幕为我们呈现的《HER》,耳机那头的温柔女声,似乎可以成为我们每一个人的知心朋友。而随着人工智能领域的高速发展,这些期待似乎都在以更加具象化的形态向我们走来。如果说,多啦A梦的四次元口袋,是动漫世界里一次天马行空的创造,《HER》是电影行业献给人们的一份畅想,ChatGPT——这个在2022年12月,OpenAI颁布的聊天对话式机器人,无疑是人工智能从业者为人们的未来和想象之间,搭建起的一座桥梁,也让NLP(自然语言处理)领域的算法模型进一步走进大众的视野。无论是PLUG (Pre-training for Language Understanding and Generation)、GPT (Generative Pre-trained Transformer),还是BERT (Bidirectional Encoder Representations from Transformers),这些在NLP(自然语言处理)领域的算法,就像是从AI世界走来的一个个社牛朋友,为人们带来了人工智能在人类世界更加具体的存在形态,更为人们与人工智能的相处提供了更多的可能性。
ChatGPT是什么?
“ChatGPT 是 OpenAI 开发的一款人工智能聊天机器人原型,专门用于对话。聊天机器人是一种大型语言模型,采用监督学习和强化学习技术进行了微调。它是 OpenAI 的 GPT-3.5 语言模型家族中一个模型的微调版本。”
——维基百科
ChatGPT是由OpenAI开发的聊天机器人,它是基于GPT-3.5语言模型,衍生出来的一个聊天机器人。从呈现形式上来看,它就是一个简单的网页,界面简洁得只剩下“输入框”、“回答框”两个元素。而用户与ChatGPT的交互,也是我们日常生活中,人与人交互最常见的沟通方式——语言沟通。
用户在完成注册之后,就可以直接进入到对话页面。不同于我们熟悉的Siri、天猫精灵这类通过“说话”进行沟通的机器人,它们往往需要用户采用特定的关键词进行唤醒之后,再进入正常的对话。而ChatGPT,更像是我们身边的一个社牛朋友,无论任何话题、任何想法,我们只需要单刀直入地输进对话框,ChatGPT都会以它的知识储备进行应答。
chatGPT操作界面 图源:https://chat.openai.com/chat
而ChatGPT最强大的部分,则是在它简单外表下“并不简单的知识储备”,如同多啦A梦的四次元口袋,在这个小小的机器人背后,包罗了世界万物的知识宝藏。就像是多啦A梦心里默念自己的期待,你也可以在小小的输入框中输入自己的问题,ChatGPT则会调动起它的知识库,为你解答。你也许会疑惑,ChatGPT的知识储备是从何而来的呢?和所有人工智能模型一样,ChatGPT作为一个语言模型,它的背后有着大型语言模型的训练集。训练集里的内容越加丰满,也就意味着ChatGPT的知识边界在不断扩大。ChatGPT背后的语言模型是GPT-3.5语言模型。而GPT-3.5的前身——GPT-3一度是全球最大的自然语言模型,它拥有1750亿个参数。在如此庞大的参数之下,ChatGPT就像是一块可以无限吸收人类文明的海绵,所有的知识都能够不受限地进入它的“知识库”里。宏大到对人工智能的分析,细微到对几行代码的精准调整,所有问题在它面前,都能迎刃而解。
而如果仅仅是“知识的搬运工”,ChatGPT自然不可能成为2022年如此炙手可热的一颗明星。除了对知识边界的突破,它更能够将知识以富有逻辑的语言进行表达。如果说搜索引擎是为人们打开了知识的一扇窗,让人们能够有机会突破书本的物理限制、在知识的海洋里遨游;那ChatGPT则像是每个人的贴身老师,将所有复杂问题以简单明了且富有逻辑的语言,轻声诉说在人们耳边。它如同《HER》里主角耳机里的那位神秘女人,懂得倾听、懂得回应。这又是如何做到的呢?2022年3月,OpenAI发表了论文“Training language models to follow instructions with human feedback”(结合人类反馈信息来训练语言模型使其能理解指令)。在这篇论文中,它们提出了一个新模型——InstructGPT,基于GPT-3模型的微调版本。在InstructGPT的模型中,除了事先准备好的数据集之外,人们的评价和反馈数据也被加入训练中。这就意味着,模型能够有能力去辨别“人类喜欢什么样的语言”。
由此,建立在强大的训练集和“懂得”人类所好训练过程的ChatGPT 降临到人们身边的时候,这个知识渊博的社牛朋友自然成为了人们争相了解的对象。
instructGPT模型介绍 图源: Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155.
GPT和它的好朋友们——BERT/PLUG
除了ChatGPT所依赖的GPT之外,在NLP(自然语言处理)领域还有很多不同的模型,应用于各个不同场景。而当下最热门的模型便是PLUG (Pre-training for Language Understanding and Generation)、GPT (Generative Pre-trained Transformer)和BERT (Bidirectional Encoder Representations from Transformers)。作为GPT在自然语言处理领域的好朋友,它们也都基于自己的学习过程,在各自的领域发挥着自己的特长。
在语言模型领域,学习语言主要分为了三步:
读到文字->理解别人说的话(encoder)->表达自己想说的话(decoder)。
「理解别人说的话」的部分我们称之为encoder(解码器),「表达自己想说的话」的部分我们称之为decoder(编码器)。
encoder、decoder原理图 图源:Song, K., Tan, X., Qin, T., Lu, J., & Liu, T. Y. (2019). Mass: Masked sequence to sequence pre-training for language generation. arXiv preprint arXiv:1905.02450.
BERT (Bidirectional Encoder Representations from Transformers)成为语言专家的过程,就像是我们小时候做英语完形填空的过程。它是一个判别模型,能够进行自然语言理解任务。它利用模型中的encoder(解码器),人们会随机地从句子中删除一些词语,让模型学习判断在句子中最适合填写的是哪一个词,通过这样的方式来理解上下文。人们准备了上亿规模的文本语料,并且删除了一些词语,通过这个体量巨大的“完形填空”,让BERT学习并理解上下文。 所以,它能够很轻松地处理自然语言理解任务,比如文本分类、命名实体识别等。同时,由于BERT可以把文本中的每个词与上下文中的所有词相关联,这使得它在理解句子和文档级语义处理方面有很大优势。
而GPT(Generative Pre-trained Transformer)则略有不同,它是一个生成模型,能够根据给定的输入生成自然语言文本。它利用的是模型中的decoder(编码器)。不同于完形填空,我们交给GPT的任务,是让它通过我们提供的文本,“预测”接下来会说什么话。所以相比起理解上下文,GPT更适合去理解“上文说了什么?”。这也就意味着,它为“回答问题”提供了丰沃的土壤。这使得GPT在文本生成任务上非常强大,特别是在问答系统中,能够发挥出它强大的生成能力。同时,由于GPT的训练数据是从互联网上抓取的大量文本数据,这使得GPT-3对于自然语言的理解能力很强,能够很好地模拟人类的语言理解能力。
对于PLUG(Pre-training for Language Understanding and Generation)来说,它则是拥有了encoder(解码器)、decoder(编码器)两部分。拥有“完形填空”和“理解文本”两种能力的PLUG,相比起BERT、GPT来说,它的能力更加综合,既可以进行文本的理解,也可以基于理解进行文本生成。所以,它在机器翻译等对语言的理解、生成有着综合要求的领域,就拥有着更强的优势。但是,由于它模型的综合性,PLUG模型的训练更复杂,也更耗时间。
总的来说,在自然语言处理领域,不同模型本身的原理不同、训练集不同,使得它们在自己的领域,都拥有着不可被代替的一席之地。BERT利用它超强的理解力,帮助人们完成文本分类等语言理解任务;GPT利用它的生成能力,帮助人们回答一个个天马行空的复杂问题;而PLUG更多的是集成理解、生成的综合能力,为人们在长文本的翻译等综合的自然语言处理上,贡献自己的力量。
而ChatGPT的出现,为我们证明了GPT如何在生成领域被发挥到极致。而它更是为我们在模型的使用和打磨上,都建立起一个标志性的标杆。它为我们证明了,在足够的训练集的沉淀下,在足够精细打磨的算法迭代之下,在产品能力足够专业的运用下,每一个算法都能够有机会在它的领域,为人类社会贡献自己的力量。如何去为每一种模型找到更精准的发展方向、更有效的应用场景,则是人类如何和这些“语言学好朋友”更好地相处的重大命题。
ChatGPT的应用
而回到我们的生活本身,当我们坐在电脑面前,打开ChatGPT,面对这个未知的神奇盲盒,你是否想过我们可以如何和这个知识渊博的社牛朋友更好地交朋友呢?
获取知识
面对这个知识渊博的朋友,我们当然不能错过向它“多多请教”的机会。无论是对未知领域的探索,还是专业领域的建议,ChatGPT都能够为我们提供准确且贴心的服务。
向chatGPT询问知识 图源:https://chat.openai.com/chat
与其他人工智能产品联动
除了ChatGPT之外,AI绘画也是让人们眼前一亮的AI产品。起初,人们还会担心自己的语言表达能力不足而无法准确告知AI自己期待的画面;而现在,我们可以邀请ChatGPT帮忙,为我们描绘更多有趣景象,并和AI绘画产品联动,和AI一起合作,创造出更有意思的画作。
向chatGPT获取文生图中的提示语 图源:https://chat.openai.com/chat
对话式交互的突破
跳脱出对ChatGPT的使用场景本身,回归到ChatGPT的智能对话形态,它也为我们的“智能对话领域”提供了另一种更加“知性”的形态。当下,在中国互联网,人们最熟悉的智能对话集中在以“智能客服”为主的场景中。它通过获取在一定范围内的知识领域的信息,并且识别提问中的“关键字”的方式,为人们提供最佳精准快捷的数据。这使得它能够在一个垂直行业沉淀足够的知识和信息,展现的形态也更加“专业”、“高效”。而对于ChatGPT,由于它知识面的宽广和交流语言的流畅性,它更像是一个遨游在知识世界的自由者,给人们的反馈也是贴心且渊博。但也存在着如何商用的难点。
当两种对话式交互都随着技术的发展呈现在我们面前,我们是否有能够让两者进行更好的结合?或许未来有一天,专业的机器人也能有知性亲切的一面,渊博的机器人也能有高效专业的一面。人们与AI的交互,会迎来更多的可能性。
对话式交互的未来的无限可能
结语
从多啦A梦的四次元口袋、《HER》中知性优雅的人工智能伙伴,这些人们只能通过想象触碰到的未来,随着技术的发展,正一步步地向我们走来。我们也有理由充满信心地,引领着这些“来自NLP算法世界里,知识渊博的社牛朋友们”,一起去探索更加美好的人类未来。
我们是达摩院设计团队,于2019年随达摩院而生,专注智能,前沿的高科技领域设计。团队集3D数字人、多模态交互设计、三维重建、工业设计、用户研究等能力,负责达摩院各实验室科技产品体验转译与设计研究工作,致力于打造聪明而有温度的智能创新产品。