人类和动物似乎能够通过观察和用任务无关的、无监督的方式进行的少量交互来学习到大量的关于世界如何运作的背景知识。可以假设,这种积累的知识可能构成了通常被称为常识的基础。常识可以看作是世界模型的集合,可以告诉智能体什么是可能的,什么是合理的,什么是不可能的。使用这样的世界模型,动物可以通过很少的试验学习到新的技能。他们可以预测自己动作的后果,可以推理、计划、探索和想象新的问题的解决方案。更重要的是,他们还可以避免在面对陌生情况时犯下严重且危险的错误。
人类、动物和智能系统使用世界模型的想法可以追溯到很久以前的心理学研究(Craik,1943)。自 1950 年代 (Bryson and Ho, 1969) 以来,使用正向模型预测世界的下一个状态作为当前状态和正在考虑的动作的函数一直是最优控制的标准程序,并被命名为模型预测控制.可微分世界模型在强化学习中的使用长期以来一直被忽视,但正在被重新重视起来(参见 (Levine, 2021))
汽车的自动驾驶系统可能需要进行数千次强化学习试验,以了解转弯速度过快会导致不良结果,并学会减速以避免打滑。相比之下,人类可以利用他们对直觉物理学的深入了解来预测这些结果,并在学习新技能时在很大程度上可以避免执行危险的操作。
常识知识不仅可以让动物预测未来的结果,还可以在时间或空间上填补缺失的信息。它使他们能够产生与常识一致的感知的解释。当面对模棱两可的感知时,常识允许动物摒弃与其内部的世界模型不一致的解释,并特别关注到可能的危险情况(常识的两个作用——译者注),并且学习改进自身的世界模型。
我认为,设计学习范式和架构,使机器能够以无监督或自我监督的方式学习世界模型,并使用这个模型进行预测、推理和计划,这是人工智能的主要挑战之一。今天的机器学习,一个主要的技术障碍是如何设计出可训练的世界模型来处理预测中的复杂性和不确定性。
人类和动物在生命的最初几天、几周和几个月内学习有关世界如何运作的基础知识。尽管大量此类知识很快就获得了,但这些知识似乎如此基础,以至于我们认为这是理所当然的。在生命的最初几个月,我们了解到世界是三维的。我们了解到,世界上的每个光、声和触觉的源头都离我们有一段距离。视觉感知中的每个点都有距离这一事实是解释我们看世界时左眼和右眼有差异或者当我们的头部移动时有差异的最佳解释。视差运动使深度变得明显,这反过来又使物体的概念变得明显,以及近的物体可以遮挡远的物体这一事实。
一旦确定了对象的存在(计算机视觉的任务之一就是确定对象的存在,类似于视觉语义分割任务——译者注),就可以根据它们的外观或动作将它们自动分配到各自的类别中(命名,归类—译者注)。在对象概念之上是对象不会自发出现、消失、改变形状或传送的知识,它们移动平稳,并且在任何时候只能出现在一个地方。一旦获得了这样的概念,就很容易知道有些物体是静态的,有些具有可预测的轨迹(无生命的物体),有些动作方式有些不可预测(水、沙、风中的树叶等一类现象),以及有些似乎遵守不同的规则(动画对象)。诸如稳定性、重力、惯性等直观物理学的概念可以在此之上出现。有生命的物体对世界的影响(包括主体自身动作的影响)可以用来推断因果关系,在此基础上可以获得语言和社会知识。
图 1 是由 Emmanuel Dupoux 提供的,显示了婴儿似乎在什么年龄获得了基本概念,例如对象持久性、基本类别、直觉物理学等。较高抽象层次的概念似乎是在较低层次的概念之上发展起来的。
有了这种对世界的了解,结合简单的动作和内在动机/目标,动物可以快速学习新的任务,预测他们动作的后果并提前规划,预见到成功的动作过程并避免危险的发生。
但是人类或动物的大脑是否包含生存所必需的各种世界模型?本文中的一个假设是,动物和人类在其前额叶皮层的某个地方只有一个世界模型引擎。该世界模型引擎可针对当前的任务进行动态配置。使用单个可配置的世界模型引擎,而不是针对每种情况的单独模型,可以跨任务共享有关世界如何运作的知识。这可以通过将针对一种情况配置的模型应用于另一种情况来进行类比推理。
为了使事情具体化,下节将直接深入描述所提出的模型。
留言与评论(共有 0 条评论) “” |