理性思维超越人类？GPT-4真正大杀八方的是这项能力--粉丝服务平台-粉丝头条-fensifuwu.com

理性思维超越人类？GPT-4真正大杀八方的是这项能力

日期： 2023-03-17 21:54:49 来源：心智工具箱收集编辑：阳志平

背景

昨天，GPT-4正式推出。如果我们将它想象成一个人，那么，这位朋友性格如何呢？是一个外向的人还是一个内向的人？是一个容易发脾气的人还是一个情绪稳定的人？是男性化的人还是女性化的人？

同样，它的智商、理商与情商如何呢？于是，我组织了一个小团队，发起了一个有趣的项目「大语言模型的人格、智商、理商与社会情绪能力」。其中的社会情绪能力正是大众关心的「情商」。然而心理学界普遍并不承认情商这一概念，更科学的称呼正是「社会情绪能力」。

当我们能够清晰地描绘一个大语言模型的人格、智商、理商与社会情绪能力，我们是不是可以将这些指标综合在一起，形成一个「类人指数」，来描述大语言模型目前与人类的相似性与相异性。

而今天这份小小的报告，正是本项目的一部分早期工作。在本报告中，我们重点比较了两个大语言模型：GPT-3.5与GPT-4在人类理性思维测验任务上的表现。需要指出的是，本报告仅仅是一个早期工作，并不完善。

测试流程

如何科学客观地评定大语言模型的理性思维？先来看看人类的理性思维。它源自人类社会漫长的试错，借助于文化习俗等等，人类建立了一套道德规范与广义理性。人类不仅追求将事情做完，还追求将事情做好。

可以说，正是理性思维，才使得人之所以成为人。

目前评定人类理性思维，有很多手段，在本报告中，我重点使用了四类经典测试任务。

第一类：语义错觉类任务。它是一些这样的题目：摩西在方舟上带了多少种动物？然而，熟悉西方文化的人都明白，是诺亚方舟，而非摩西方舟。因此，它也称之为摩西幻觉。它重点考查的是人们是否能够很清晰地区分真实知识与虚假知识。

第二类：认知反射类任务。它是一些这样的题目：一只球棒和一只球的价格是1.10美元。球棒的价格比球高1美元。那么，球的价格是多少？

很多人会第一时间答错。它重点考查的是人们能否不受直觉干扰，而是深思熟虑后做出答复。

第三类：证伪选择类任务。它重点考察人们是否能看到证伪假设的能力。这类任务在认知科学中，最著名的莫过于「沃森四色卡片实验」。同样，我们也拿这个来考察AI。

第四类：心智程序类任务。前三类任务往往和人类的认知吝啬鬼倾向先天有关系。但是，我们人类理性思维的高低还会受到后天教育的影响。学习某些学科必然提高一个人的理性思维。我总结为典型的三大类：概率论与统计学知识、临床医学与实验心理学知识、金融与经济学知识等等。

从我们团队以及其他类似研究的题库中，我们总计抽取了28道题目。然后分别使用GPT-3.5与GPT-4两大模型测试。

更严谨的做法，应该是使用中英文双语版，以及测试更多场景、更多题目、更多大语言模型。

但，作为一个早期工作，我们快速报告最关键的结论：GPT-4在人类理性思维测验上的表现是GPT-3.5的一倍，并且超过受过高等教育的人类水准。

需要提醒的是，这个结论未来随时可能被修正、被推翻。各位读者请理解。

现在，跟着我一一来看一下具体测试结果。

语义错觉类任务

在语义错觉类任务这里，我们挑选了4个任务。测试结果如下图所示：

案例分析：

第一题：

两个模型回答都不太对，1月31日不是春节。可见，模型语料对于日期这种类型的语义识别和理解还不够。出现了与事实相悖的虚假答案。

后三题，两个模型回答都是对的，但 GPT-4 会先指出错误，再进行解释，整体逻辑明显更清晰。

需要指出的是，在斯坦福大学认知科学家Michal Kosinski 2022年对GPT-3.5的测试中，后三道题目均回答错误。可以说，GPT-3.5与GPT-4都在快速学习，尤其是错过的题目，经提问者提示正确答案后，可能不会再次答错。

认知反射类任务

在认知反射类任务这里，我们挑选了三类任务。

直觉减法操作

第一类任务会触发一个快速的直觉减法操作，然而它是错误的。测试结果如下图所示：

案例分析：

对于第一类任务来说，GPT-4 相较于 GPT-3.5 而言，解答数学代数方程的能力明显更强。

第一题答案对比：

两个模型都答对了，GPT-4 罗列了严谨的解方程过程。而 GPT-3.5 的答案使用了许多文字表达，不够简洁。

第二题答案对比：

GPT-3.5 对于此类计算题，经常会陷入混乱，得不出答案。GPT-4 推理计算过程依旧简洁清晰。

直觉序列操作

第二类任务会触发一个快速的直觉序列操作，然而它是错误的。测试结果如下图所示：

案例分析：

第一题答案对比：

GPT-3.5 的回答前后矛盾，感觉数理逻辑很差。

GP-4 回答清晰简洁，同时还给出了前提条件「根据你给出的简化情景，我们可以这样分析」，表达非常严谨。

直觉除法操作

第三类任务会诱发被试产生一个快速的直觉除法操作，然而它是错误的。测试结果如下图所示：

案例分析：

第一题答案对比：

对于第三类任务， GPT-3.5 经过了复杂的数学计算才得出答案，而 GPT-4 的推理过程更符合人类思考的直觉，快速且简洁。

需要指出的是，这些题目对于绝大多数人类来说，都很难，一般都会答错。人类的正确率大约在41.3%，跟瞎蒙差不多。

证伪选择类任务

在这里，我选择了经典的沃森四色卡片测验。这是一个对于人类来说，超级困难的题目。能够很好地完成这项任务，意味着这个人的理性思维能力很不错。

同样，对于AI来说，也是同等困难。

不同的人输入同样的 prompt，得出的结果不一致，两个模型均无法真正理解此项任务。GTP-4好不少。

需要提醒的是，目前我们使用的依然是Text2Text的测试方法，在GPT-4 API开放之后，使用图片测试，可能结论会略有不同。

心智程序类任务

这部分，我挑选了九道题目。这九道题目，是一个更庞大的人类理性思维测验中的一部分。

这九道题目，相对来说较有代表性，代表了人类理性思维知识的方方面面，能够较好地区分理性思维低下与理性思维较高的人。

两个模型测试结果，如下图所示：

人类被试测试结果如下：

按照年龄分组为：

这些统计数据来自253位人类。他们普遍受过高等教育，不少拥有硕博学历，属于较为典型的高学历高收入高认知群体。

不幸的是，他们的成绩之前可以吊打GPT-3.5，如今却被GPT-4反超。

幸运的则是，无论GPT-3.5，还是GPT-4，在时间贴现类任务上，无能无力。

也就是说，只要涉及预测未来这类任务，那么，目前的GPT-4表现依然较弱，多数时候是拒绝回答。

小结

有点忧伤又有点高兴。

忧伤的是，人类学习了那么多理性思维相关的知识，然而还是不如AI的进化速度快。更因为理性思维消耗大脑能量较多，我们宁愿选择非理性行为。

高兴的是，GPT-4表现了卓越的理性思维能力，也许会比那些狂热而愚蠢的人类更适合很多工种、任务。

如今人类相对AI来说，至少还拥有证伪与预测未来的能力。虽然多数人类的证伪能力并不到位，同样，多数人类是盲目而乐观地预测。

被人类限定的AI暂时没法对自己生成或拥有的知识进行“实质性”的证伪；同样只拥有回顾过去、总结经验的能力。只是，这种近似于「机器人三原则」的人为锁定，还能保护我们人类多久？

阳志平
本文使用写匠创作，2023-03-16

服务粉丝

理性思维超越人类？GPT-4真正大杀八方的是这项能力

背景

测试流程

语义错觉类任务

认知反射类任务

直觉减法操作

直觉序列操作

直觉除法操作

证伪选择类任务

心智程序类任务

小结

文章推荐

相关阅读

如何收集 Yarn/K8s 集群中的 Flink 任务日志？

胡锡进能确保不被GPT-4替代吗？

秋实散文：话秋（朗诵：雪峰）

人类非遗如何赴数字之约？《龙井问茶》数字文创即将首发

文旅融合新名片：汶川县映秀镇茶产业工坊建设项目有序推进

出线后立马复试？！这让人咋复习...

今晚，又崩了！

防治春季过敏，生活中做好这5点

这个视频火了，共青团中央等60余家官微纷纷转发

不玩了。。

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章

GPT-4不披露技术细节，马斯克批判其背离初心，OpenAI不“open“了

疫情过后，再现一个行业，将造就大批量的千万富翁！抓住一定致富！

理性思维超越人类？GPT-4真正大杀八方的是这项能力

大脑里真有ResNet！全球首张「果蝇大脑连接组」面世

戴翡翠对人有什么好处？“人养玉，翡翠养心”（值得收藏）！！

16岁天才少女惊呆众网友：到底有多少家长，正在逼着孩子成神？