ChatGPT和Minerva等大语言模型是巨大的分层排列的计算单元网络(也称为人工神经元)。LLM 的大小是根据它有多少参数来衡量的,而参数量描述了神经元之间连接强度的可调值。训练这样的网络,就需要要求它预测已知句子的掩码部分并调整这些参数,以便算法下次做得更好。对数十亿个人类书写的句子重复执行这个操作,神经网络就会学习模拟人类书写语言方式的内部表征。在这个阶段,LLM 被认为是经过预训练的:它的参数捕获了它在训练期间看到的书面语言的统计结构,包括文本中的所有事实、偏见和错误。然后可以根据专门数据对它「微调」。例如,为了制作Minerva,研究人员从谷歌的Pathways Language Model (PaLM) 入手,该模型拥有5400亿个参数,并在7800亿个token的数据集上进行了预训练。token可以是一个词、数字或一些信息单元;在PaLM的例子中,token是从英语和多语言网络文档、书籍和代码中收集的。Minerva是PaLM对来自科学论文和数学网页的数百亿个token进行微调的结果。Minerva可以回答「小于520的30的最大倍数是多少」这样的问题。LLM似乎在按步骤思考,但它所做的只是将问题转化为tokne序列,生成统计上合理的下一个token,将其附加到原始序列,生成另一个token,等等。这个过程就被称为推理。谷歌研究人员使用了具有80亿、620亿和5400亿参数的底层预训练PaLM模型,对Minerva的三种尺寸进行了微调。Minerva的性能随着规模的扩大而提高。在整个MATH数据集上,最小模型的准确率为25%,中型模型达到43%,最大模型突破50%大关。最大的模型也使用了最少的微调数据——它只对260亿个token进行了微调,而最小的模型则微调了1640亿个token。但是最大的模型花了一个月的时间进行微调,专用硬件的算力是最小模型所用算力的八倍,而最小模型的微调时间仅为两周。理想情况下,最大的模型应该在更多token上进行微调。谷歌研究院Minerva团队的成员Ethan Dyer说,这本可以带来更好的表现。但团队认为计算费用不可行。
谷歌的人工智能研究员François Chollet是怀疑论者之一,他们认为无论LLM变得多大,他们都永远无法具备足够好的推理(或模仿推理)能力来可靠地解决新问题。他说,LLM似乎只通过使用它以前遇到过的模板来推理,无论是在训练数据中还是在提示中。「它不能即时理解它以前没有见过的东西。」或许,LLM能做的最好的事,就是吸收大量的训练数据,以至于语言的统计模式本身就可以让他们用非常接近看到答案的方式,来回答问题。然而,Agüera y Arcas认为,LLM似乎确实获得了一些他们没有专门培训的能力,这些能力令人惊讶。尤其是显示一个人是否具有所谓心智理论的测试,这个测试能够理论化或衡量他人的心理状态。比如,爱丽丝把眼镜放在抽屉里,然后鲍勃在爱丽丝不知道的情况下将眼镜藏在垫子下。爱丽丝会先去哪里找她的眼镜?问一个孩子这个问题,是为了测试他们是否理解爱丽丝有自己的信念,这些信念可能与孩子所知道的不一致。Agüera y Arcas在他对谷歌的另一个LLM LaMDA的测试中,发现LaMDA在这类更扩展的对话中,会做出正确的响应。对他来说,这表明LLM有能力在内部模拟他人的意图。Agüera y Arcas说:「这些除了预测序列什么都不做的模型,已经开发了一系列非凡的能力,包括心智理论。但他承认,这些模型容易出错,而且他也不确定单独改变规模是否足以进行可靠的推理,尽管这似乎有必要。谷歌研究院的Blaise Agüera y Arcas在博客中记录了他与LaMDA的对话。Agüera y Arcas认为这是一次令人印象深刻的交流,LaMDA似乎能够始终如一地模拟故事中两个对话者知道和不知道的事情,很明显,这就是对心智理论的模仿。然而,Chollet说,即使LLM得到了正确的答案,也没有涉及理解。「当你稍微探究一下,就会立即发现它是空的。ChatGPT没有它所谈论内容的模型。就仿佛你正在观看木偶戏,并且相信木偶还活着。」到目前为止,LLM仍然会犯人类永远不会犯的荒谬错误,Melanie Mitchell说。她在Santa Fe研究所研究人工智能系统中的概念抽象和类比。这让人们很担忧,在没有护栏的情况下将LLM释放到社会中是否安全。Mitchell 补充说,对于LLM是否能够解决真正新的、未见过的问题,有一个难题,即我们没法全面测试这种能力。「我们目前的基准还不够,」她说。「它们没有系统地探索事物。我们还不知道该怎么做。」Chollet 提倡他设计的抽象推理测试,它被称为抽象推理语料库。