服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

理性思维超越人类?GPT-4真正大杀八方的是这项能力

日期: 来源:心智工具箱收集编辑:阳志平

背景

昨天,GPT-4正式推出。如果我们将它想象成一个人,那么,这位朋友性格如何呢?是一个外向的人还是一个内向的人?是一个容易发脾气的人还是一个情绪稳定的人?是男性化的人还是女性化的人?

同样,它的智商、理商与情商如何呢?于是,我组织了一个小团队,发起了一个有趣的项目「大语言模型的人格、智商、理商与社会情绪能力」。其中的社会情绪能力正是大众关心的「情商」。然而心理学界普遍并不承认情商这一概念,更科学的称呼正是「社会情绪能力」。

当我们能够清晰地描绘一个大语言模型的人格、智商、理商与社会情绪能力,我们是不是可以将这些指标综合在一起,形成一个「类人指数」,来描述大语言模型目前与人类的相似性与相异性。

而今天这份小小的报告,正是本项目的一部分早期工作。在本报告中,我们重点比较了两个大语言模型:GPT-3.5与GPT-4在人类理性思维测验任务上的表现。需要指出的是,本报告仅仅是一个早期工作,并不完善。

测试流程

如何科学客观地评定大语言模型的理性思维?先来看看人类的理性思维。它源自人类社会漫长的试错,借助于文化习俗等等,人类建立了一套道德规范与广义理性。人类不仅追求将事情做完,还追求将事情做好。

可以说,正是理性思维,才使得人之所以成为人。

目前评定人类理性思维,有很多手段,在本报告中,我重点使用了四类经典测试任务。

第一类:语义错觉类任务。它是一些这样的题目:摩西在方舟上带了多少种动物?然而,熟悉西方文化的人都明白,是诺亚方舟,而非摩西方舟。因此,它也称之为摩西幻觉。它重点考查的是人们是否能够很清晰地区分真实知识与虚假知识。

第二类:认知反射类任务。它是一些这样的题目:一只球棒和一只球的价格是1.10美元。球棒的价格比球高1美元。那么,球的价格是多少?

很多人会第一时间答错。它重点考查的是人们能否不受直觉干扰,而是深思熟虑后做出答复。

第三类:证伪选择类任务。它重点考察人们是否能看到证伪假设的能力。这类任务在认知科学中,最著名的莫过于「沃森四色卡片实验」。同样,我们也拿这个来考察AI。

第四类:心智程序类任务。前三类任务往往和人类的认知吝啬鬼倾向先天有关系。但是,我们人类理性思维的高低还会受到后天教育的影响。学习某些学科必然提高一个人的理性思维。我总结为典型的三大类:概率论与统计学知识、临床医学与实验心理学知识、金融与经济学知识等等。

从我们团队以及其他类似研究的题库中,我们总计抽取了28道题目。然后分别使用GPT-3.5与GPT-4两大模型测试。

更严谨的做法,应该是使用中英文双语版,以及测试更多场景、更多题目、更多大语言模型。

但,作为一个早期工作,我们快速报告最关键的结论:GPT-4在人类理性思维测验上的表现是GPT-3.5的一倍,并且超过受过高等教育的人类水准。

需要提醒的是,这个结论未来随时可能被修正、被推翻。各位读者请理解。

现在,跟着我一一来看一下具体测试结果。

语义错觉类任务

在语义错觉类任务这里,我们挑选了4个任务。测试结果如下图所示:

案例分析

第一题

两个模型回答都不太对,1月31日不是春节。可见,模型语料对于日期这种类型的语义识别和理解还不够。出现了与事实相悖的虚假答案。

后三题,两个模型回答都是对的,但 GPT-4 会先指出错误,再进行解释,整体逻辑明显更清晰。

需要指出的是,在斯坦福大学认知科学家Michal Kosinski 2022年对GPT-3.5的测试中,后三道题目均回答错误。可以说,GPT-3.5与GPT-4都在快速学习,尤其是错过的题目,经提问者提示正确答案后,可能不会再次答错。

认知反射类任务

在认知反射类任务这里,我们挑选了三类任务。

直觉减法操作

第一类任务会触发一个快速的直觉减法操作,然而它是错误的。测试结果如下图所示:

案例分析

对于第一类任务来说,GPT-4 相较于 GPT-3.5 而言,解答数学代数方程的能力明显更强。

第一题答案对比

两个模型都答对了,GPT-4 罗列了严谨的解方程过程。而 GPT-3.5 的答案使用了许多文字表达,不够简洁。

第二题答案对比

GPT-3.5 对于此类计算题,经常会陷入混乱,得不出答案。GPT-4 推理计算过程依旧简洁清晰。

直觉序列操作

第二类任务会触发一个快速的直觉序列操作,然而它是错误的。测试结果如下图所示:

案例分析

第一题答案对比:

GPT-3.5 的回答前后矛盾,感觉数理逻辑很差。

GP-4 回答清晰简洁,同时还给出了前提条件「根据你给出的简化情景,我们可以这样分析」,表达非常严谨。

直觉除法操作

第三类任务会诱发被试产生一个快速的直觉除法操作,然而它是错误的。测试结果如下图所示:

案例分析

第一题答案对比:

对于第三类任务, GPT-3.5 经过了复杂的数学计算才得出答案,而 GPT-4 的推理过程更符合人类思考的直觉,快速且简洁。

需要指出的是,这些题目对于绝大多数人类来说,都很难,一般都会答错。人类的正确率大约在41.3%,跟瞎蒙差不多。

证伪选择类任务

在这里,我选择了经典的沃森四色卡片测验。这是一个对于人类来说,超级困难的题目。能够很好地完成这项任务,意味着这个人的理性思维能力很不错。

同样,对于AI来说,也是同等困难。

不同的人输入同样的 prompt,得出的结果不一致,两个模型均无法真正理解此项任务。GTP-4好不少。

需要提醒的是,目前我们使用的依然是Text2Text的测试方法,在GPT-4 API开放之后,使用图片测试,可能结论会略有不同。

心智程序类任务

这部分,我挑选了九道题目。这九道题目,是一个更庞大的人类理性思维测验中的一部分。

这九道题目,相对来说较有代表性,代表了人类理性思维知识的方方面面,能够较好地区分理性思维低下与理性思维较高的人。

两个模型测试结果,如下图所示:

人类被试测试结果如下:

      按照年龄分组为:

这些统计数据来自253位人类。他们普遍受过高等教育,不少拥有硕博学历,属于较为典型的高学历高收入高认知群体

不幸的是,他们的成绩之前可以吊打GPT-3.5,如今却被GPT-4反超。

幸运的则是,无论GPT-3.5,还是GPT-4,在时间贴现类任务上,无能无力。

也就是说,只要涉及预测未来这类任务,那么,目前的GPT-4表现依然较弱,多数时候是拒绝回答。

小结

有点忧伤又有点高兴。

忧伤的是,人类学习了那么多理性思维相关的知识,然而还是不如AI的进化速度快。更因为理性思维消耗大脑能量较多,我们宁愿选择非理性行为。

高兴的是,GPT-4表现了卓越的理性思维能力,也许会比那些狂热而愚蠢的人类更适合很多工种、任务。

如今人类相对AI来说,至少还拥有证伪与预测未来的能力。虽然多数人类的证伪能力并不到位,同样,多数人类是盲目而乐观地预测。

被人类限定的AI暂时没法对自己生成或拥有的知识进行“实质性”的证伪;同样只拥有回顾过去、总结经验的能力。只是,这种近似于「机器人三原则」的人为锁定,还能保护我们人类多久?

阳志平
本文使用写匠创作,2023-03-16

相关阅读:


相关阅读

  • 如何收集 Yarn/K8s 集群中的 Flink 任务日志?

  • 背景不管是 Flink On Yarn 还是 On k8s,如果任务正常运行,我们是可以通过 Flink Web UI 去查看 JobManager 和 TaskManager 日志,虽然日志量大的时候去不同的 TaskManager 找日
  • 胡锡进能确保不被GPT-4替代吗?

  • GPT-4掀起新工业革命?格局小了。撰文 | 佘宗明在ChatGPT变得火爆后,很多人问:ChatGPT会替代胡锡进吗?在GPT-4降世后,人们该问的问题也许是:胡锡进有什么能耐不被替代?说AI永远不可
  • 秋实散文:话秋(朗诵:雪峰)

  • 点击收听电台作者:秋实 诵读:雪峰秋天来了吗?早些日子就立秋了。“树树皆秋色,山山唯落晖”。早就立秋了?那我为什么没有感到一点的秋意呢?你对秋不敏感呗。秋,我还是很喜欢的,秋对
  • 出线后立马复试?!这让人咋复习...

  • 本文由蝶澈学姐原创,未经授权禁止转载你们造不造...有的学校已经复试完了(然而有的是不是还没出复试线啊)emmm怎么说呢,速度真的是快赶上火箭了~已经说不清从啥时候开始,复试成了
  • 今晚,又崩了!

  • 今天3.15,爱股君要打假创业板,竟然日线7连跌了,周线也7连跌,真的是扶不起!问君能有几多愁,恰是在创业板满仓新能源,都快跌傻了。不过,个股表现还凑合,上涨近3500家,涨停27家跌停0家,中
  • 防治春季过敏,生活中做好这5点

  • 春天总是让人欢喜让人忧,喜的是终于告别了寒冷的冬天,忧的是又到了易过敏的时期。为什么美好的春季会容易过敏呢?因为春季的空气中,花粉、柳絮、尘螨等悬浮物的含量急剧增加,这些
  • 这个视频火了,共青团中央等60余家官微纷纷转发

  • 当互联网原住民们面对信息轰炸、广告推送已然麻木的今天,什么样的内容才能实现快速的出圈传播,获得大众化的认可和共享?真诚才是唯一的答案。来自共青团中央官方微博“高铁展示
  • 不玩了。。

  • 最近这几天股市真的是跌得让人有点崩溃,本以为去年已经够难的了,没想到今年春节后似乎更难。我这周有好几个哥们都跟我说,感觉自己不会炒股票了,甚至还有一个跟我说要退出市场。

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章