本周主要内容:TaskMatrix.AI、机器心理学、自然语言推理、GPT 与 IRSA、脑电图空间频谱梯度与意识障碍、视觉感知与代理感、现实与想象的主观信号、面部移植与自我认知
AGI 每周速递
[1] TaskMatrix.AI:通过基础模型调度百万量级 API
标题:TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs
链接:http://arxiv.org/abs/2303.16434
作者:Yaobo Liang, Chenfei Wu, Ting Song, Wenshan Wu, Yan Xia, Yu Liu, Yang Ou, Shuai Lu, Lei Ji, Shaoguang Mao, Yun Wang, Linjun Shou, Ming Gong, Nan Duan
单位:微软
摘要:
人工智能最近取得了令人难以置信的进步。一方面,像 ChatGPT 这样的高级基础模型可以在广泛的开域任务中提供强大的对话、情景学习和代码生成能力。他们还可以基于所获得的常识知识,为特定领域的任务生成高级解决方案大纲。然而,他们在一些专门的任务中仍然面临困难,因为他们在预训练期间缺乏足够的领域特定数据,或者他们在需要准确执行的任务的神经网络计算中经常出现错误。另一方面,也有许多现有的模型和系统(基于符号或基于神经)可以很好地完成一些领域特定的任务。然而,由于不同的实现或工作机制,它们不容易访问或与基础模型兼容。因此,显然迫切需要一种机制,这种机制可以利用基础模型来提出任务解决方案大纲,然后自动将大纲中的一些子任务与现成的模型和具有特殊功能的系统相匹配,以完成它们。受此启发,本文引入 TaskMatrix.AI 作为一个新的 AI 生态系统,它将基础模型与数百万个用于完成任务的 API 连接起来。与以往大多数旨在改进单一 AI 模型的工作不同,TaskMatrix.AI 更专注于使用现有的基础模型(作为一个类似大脑的中央系统)和其他 AI 模型和系统的 API(作为子任务解算器)来实现数字和物理领域的多样化任务。作者提出对如何建立这样一个生态系统的愿景,解释每个关键组成部分,并使用研究案例来说明这一愿景的可行性以及下一步需要解决的主要挑战。
[2] 机器心理学:使用心理学方法研究大型语言模型中的涌现能力和行为
标题:Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods
链接:https://arxiv.org/abs/2303.13988v1
作者:Thilo Hagendorff
单位:德国斯图加特大学
摘要:
大型语言模型(LLM)目前处于 AI 系统与人类交流和日常生活交织的最前沿。由于技术的快速发展和极大的通用性,LLMa 目前拥有数百万用户,并即将成为信息检索、内容生成、问题解决等的主要首选技术。因此,彻底评估和审查它们的能力是非常重要的。由于目前 LLM 的行为模式越来越复杂和新颖,这可以通过将他们视为最初设计用于测试人类的心理学实验的参与者来实现。为此,本文引入了一个新的研究领域:「机器心理学」。这篇论文概述了心理学的不同子领域如何为 LLMs 的行为测试提供信息。它定义了机器心理学研究的方法论标准,特别是通过关注提示设计的政策。此外,它还描述了如何解释在LLM中发现的行为模式。总之,机器心理学的目标是发现 LLMs 中的新兴能力,而这些能力是大多数传统的自然语言处理基准无法检测到的。
[3] 自然语言推理:综述
标题:Nature Language Reasoning, A Survey
链接:https://arxiv.org/abs/2303.14725v1
作者:Fei Yu, Hongbo Zhang, Benyou Wang
单位:香港中文大学
摘要:
本文从概念和实践两个方面对自然语言处理领域的自然语言推理(Nature Language Reasoning)提出了一个更清晰的看法。在概念上,本文基于哲学和 NLP 场景,给出了 NLP 中自然语言推理的明确定义,讨论了哪些类型的任务需要推理,并引入了推理的分类。在实践中,本文对自然语言推理进行了全面的文献综述,主要包括经典逻辑推理、自然语言推理、多跳问答和常识推理。本文还对反向推理这一强大的多步推理范式进行了肯定和展望,并将可撤销推理作为未来自然语言推理研究的重要方向之一。本文专注于单通道非结构化自然语言文本,不包括神经符号技术和数学推理。
[4] GPT 正在变成一个图灵机
标题:GPT is becoming a Turing machine: Here are some ways to program it
链接:https://arxiv.org/abs/2303.14310v1
作者:Ana Jojic, Zhen Wang, Nebojsa Jojic
单位:Fred Hutchinson 癌症研究中心,加州大学圣地亚哥分校,Mohamed bin Zayed 人工智能大学,微软研究院
摘要:
本文证明,通过适当的提示,GPT-3 系列模型可以被触发以执行(不仅仅是编写或调用)涉及循环的程序所必需的迭代行为,包括计算机科学课程或软件开发人员采访中发现的几种流行算法。本文通过以下三种方式中的一种(或几种)管理自我关注(Regimenting Self-Attention,IRSA)触发迭代的执行和描述:(1)在针对一个特定输入的目标程序的执行路径的示例中使用强重复结构,(2)使用执行路径的片段来提示,以及(3)明确禁止(跳过)对所生成文本的部分的自我关注。在动态程序执行中,与用功能强大得多的 GPT-4 替换模型相比,IRSA 可以带来更大的精度提升。IRSA 在教育中有很好的应用前景,因为它的提示和回答类似于数据结构和算法课程中的学生作业。本文的发现对评估 LLM 有一定的启示作用,后者通常以情境学习为目标:本文发现,甚至不包括一个完整任务示例的提示也可能会触发算法行为,从而允许解决以前被认为对 LLM 来说很难的问题,如逻辑谜题。因此,提示设计对 LLM 性能的影响甚至比以前所认识到的更重要。
意识科学 每周速递
[1] 脑电图空间频谱梯度对意识障碍的分类与识别
标题:Beyond alpha power: EEG spatial and spectral gradients robustly stratify disorders of consciousness
链接:https://arxiv.org/abs/2303.14310v1
作者:Michele Angelo Colombo 等人
单位:米兰大学生物医学和临床科学系等
摘要:
神经生理标志物可以克服意识障碍(DoC)行为评估的局限性。脑电图 α 频段的功率(power)一直是 DoC 评估重要的标志物,尽管文献指出 α 功率在人类麻醉后的无意识期间持续存在,而在做梦和产生幻觉期间降低。本文假设由严重缺氧引起的脑电图功率抑制可以解释这种冲突。因此,研究者将 DoC 患者(n = 87)分为缺氧组和非缺氧组。结果发现,α 功率仅在严重缺氧后受到抑制,在其他病因中无法区分意识水平;此外,它没有推广到一个包括了正常、神经疾病和麻醉条件样本的参考数据集中(n = 65)。然后,作者研究了替代标志物:EEG 空间频谱梯度(spatio-spectral gradients)(反映前置化anteriorization 和减速 slowing)。在非缺氧组 DoC 中,这些特征在双变量模型中组合起来,可靠地对患者进行分层并索引意识,即使是通过独立神经标志物(扰动复杂性指数)识别为有意识的无反应患者。关键是,该模型以最优的方式推广到参考数据集。总的来说, α 功率并不索引意识;相反,在缺氧组患者中,其抑制会导致弥漫性皮质损伤。作为替代方案,反映不同病理生理机制的 EEG 空间频谱梯度提供了一种稳健、简约和可推广的意识标志物,其临床应用可以指导患者的康复工作。
[2] 感知内部生成的视觉刺激 vs 感知外部生成的视觉刺激
标题:Perception of self-generated and externally-generated visual stimuli: Evidence from EEG and behavior
链接:https://doi.org/10.1111/psyp.14295
作者:Edward Ody, Benjamin Straube, Yifei He, Tilo Kircher
单位:德国马尔堡大学
摘要:
基于感知副本的前向预测模型*有助于人们区分自发生成和外部生成的感觉后果。以往的研究表明,自我启动会调节对相同刺激的神经和知觉反应。例如,由自发按键听到声音所引发的事件相关电位(ERPs)相对于被动听到相同声音引发的 ERPs 振幅更低。然而,相关的视觉研究较少,且缺乏充分的被动运动控制条件。此外,尽管已知自我启动会调节行为反应,但人们尚不知道 ERPs 振幅的差异是否反映了感觉结果的不同。在这项研究中,研究者向参与者呈现了由灰色圆盘组成的视觉刺激,视觉刺激由主动按键(手指)或被动按键(磁铁)产生。每次按键后,两个视觉上相距 500-1250ms 的圆盘出现,参与者被要求判断哪个刺激更强烈。结果发现,在主动条件下,原始视觉反应的早期成分(N1 和 P2)在枕部电极处被抑制。有趣的是,强度判断任务仅与视觉 P2 成分的抑制相关。这些数据支持在视觉感觉模式中基于感知副本的前向预测模型的概念,但特别是 P2 似乎具有感知相关性。总的来说,这些结果挑战了 N1 差异反映感知抑制的假设,并强调了 P2 ERP成分的相关性。
[3] 主观信号强度区分现实与想象
标题:Subjective signal strength distinguishes reality from imagination
链接:https://www.nature.com/articles/s41467-023-37322-1
作者:Nadine Dijkstra & Stephen M. Fleming
单位:伦敦大学学院惠康人类神经影像中心
摘要:
人类非常善于想象,人类的内部模拟可以支持记忆、计划和决策。而由于支持想象的神经机制与支持感知的神经机制重叠,一个基本问题是现实和想象是如何分开的。一种可能性是,想象的意图用于识别和忽略想象过程中自我生成的信号。或者,由于内部生成的信号通常较弱,因此感官强度被用来标记现实。传统的心理学实验很难对这个问题进行研究,因为参与者可以迅速地了解到真实的刺激正在发挥作用。本文中,研究者将来自参与者的单次试验数据与计算建模和神经成像相结合,以表明想象和感知的信号实际上是混合的,对现实的判断取决于这种混合信号是否足够强以跨越现实阈值。这种描述的一个结果是,当虚拟/想象的信号足够强时,它们在主观上与现实没有区别。
[4] 认识新自我:面部移植后自我加工的神经认知可塑性
标题:Re-cognizing the new self: The neurocognitive plasticity of self-processing following facial transplantation
链接:https://doi.org/10.1073/pnas.2211966120
作者:Ruben T. Azevedoa, J. Rodrigo Diaz-Sisob, Allyson R. Alfonsob, Elie P. Ramlyb, Rami S. Kantarb, Zoe P. Bermanb, Gustave K. Diepb, William J. Rifkinb, Eduardo D. Rodriguezb, and Manos Tsakiris
单位:英国肯特大学心理学系,纽约大学 Langone 健康中心,伦敦大学心理学系,伦敦大学 Warburg 学院
摘要:
识别自己的面孔是自我意识的标志。我们的面孔会随着年龄的增长而变化,但这些转变并不一定会改变我们的自我认同。但是,当面孔通过面部移植改变或替换时会发生什么?本文首次对患者在受伤前、受伤期间和面部移植后全程中的自我面部识别的变化进行了纵向调查。神经行为学证据记录了患者在术前对受伤前外观的强烈表述,在移植后,患者逐渐将新面孔纳入其自我认同中。新面孔身份的获取得到了内侧额叶区域(medial frontal regions)神经活动的支持,这些区域被认为整合了自我的心理和感知方面。
Mindverse Research
心识研究院
心识浩渺连广宇
心识宇宙研究院,致力于在即将到来的元宇宙数字时代,研究和创造真正等价于人类意识水平的数字生命,目前已经综合多种研究进路和方法规划出一条通向AGI和人工意识的道路。在后续内容运营上,我们也会介绍和创造更多有关人工智能、意识科学、元宇宙方面最新的研究成果和原创内容。
欢迎有志者关注和加入我们的研究!