引言
近些年来,强化学习已经在各种各样的决策任务中大放异彩,从各类经典的红白机游戏 [1] 到最复杂的即时战略类游戏《星际争霸2》[2],从 AlphaGo [3] 在围棋界的一炮而红到最近 ChatGPT [4] 在对话系统领域的技惊四座,现代强化学习技术已经将单个智能体(single-agent)的决策和控制推广到一个新的高度。
而另一方面,很多现实决策场景中,人们需要控制同时存在的多个智能体(multi-agent)来完成特定任务,并思考其中衍生出来的各类竞争和协作问题,具体包括交通信号控制 [5],机器人协作 [6],自动驾驶多车博弈 [7] 和各类多人对抗游戏等等。因此,强化学习相关研究也逐渐从单智能体领域延伸了到多智能体强化学习(Multi-agent Reinforcement Learning,MARL [8])。
俗话说得好,工欲善其事,必先利其器。数据集/基准环境是启发机器学习领域发展和革新的重中之重,就像ImageNet [9]激发了图像分类领域的百花齐放,就像 Atari [10]系列环境启迪了各类强化学习算法的百家争鸣。而在多智能体领域,也涌现了出了 MPE [11-12],SMAC [13],MA-MuJoCo [14] 等一系列经典环境,但是,现有的这些环境在多智能体竞争与协作的扩展性和多样性方面仍比较初级,在决策空间的复杂性角度仍然过于简易(具体对比分析如下方表1所示),难以支持现有研究方法对海量智能体、多个智能团队之间的群体智能行为的进一步探索。
表1:GoBigger 与其他经典多智能体仿真环境的对比
图表1中,Agent Size 表示交互环境中的智能体规模,即队伍数量×每支队伍的队员(玩家)个数。动作空间(Action)和观察空间(Obs)分别代表决策问题的输出和输入空间,GoBigger 中定义了最贴近真实决策场景的混合动作空间和部分可观测观察空间。Coop 和 Comp 分别指代合作和竞争的重要性,”+“ 数量阅读代表相关指标的复杂度,GoBigger 在合作和竞争两个维度都蕴含着足够的复杂性和多样性。
为了尝试解决这一问题,将多智能体强化学习领域的研究推进到一个新的高度和广度, OpenDILab 团队提出了一个名为 GoBigger [15] 的交互仿真平台,构建具有挑战性的多智能体基准环境和算法 benchmark,并提供一系列具有高度可扩展性的关卡机制设计和表征建模方案。具体来讲,就是将”大球吃小球“这样简明的核心逻辑,扩展到不同智能体规模,不同对抗方式,不同特征编码和决策控制手段的对抗下,孕育海量智能体间的竞争与博弈,启发多智能体强化学习、群体智能和大规模智能体交互等等各种新兴研究方向。
相关论文《GoBigger: A Scalable Platform for Cooperative-Competitive Multi-Agent Interactive Simulation》已被机器学习领域顶级会议 ICLR 2023 所接收,完整环境及算法 benchmark 代码也已在 GitHub 上开源。
GoBigger GitHub repo:
https://github.com/opendilab/GoBigger
GoBigger-Explore GitHub repo:
https://github.com/opendilab/Gobigger-Explore
GoBigger ICLR 2023 paper:
https://iclr.cc/Conferences/2023/Schedule?showEvent=11881
视频1:GoBigger 中各类智能体互相博弈的酷炫表现
设计理念和机制
图2:GoBigger 整体平台设计概览图
如图2所示,系统中预设了多种循序渐进的多智能体博弈地图设定(2x2,3x2,4x2),并提供了一系列不同类型的内置 Bot 和天梯排名系统,用户可以便捷地遵循预定义的研究工作流程,无需担心环境运行机制和评测系统的各种细节问题,利用简洁的用户界面直击多智能体决策领域的核心算法研究问题。而对于高级用户,则可以根据需求自定义更加复杂的决策场景,GoBigger 也提供了相应开发者工具助力各类奇思妙想。
接下来,本文将从基本单元和游戏机制两方面具体介绍 GoBigger 中的设计细节,更详细的介绍和展示也可以参考原论文及 GitHub 官方仓库。