ICLR 2023 | GoBigger：孕育海量智能体间的竞争与协作--粉丝服务平台-粉丝头条-fensifuwu.com

ICLR 2023 | GoBigger：孕育海量智能体间的竞争与协作

日期： 2023-02-28 17:12:27 来源：PaperWeekly收集编辑：创新的

引言

近些年来，强化学习已经在各种各样的决策任务中大放异彩，从各类经典的红白机游戏 ^[1] 到最复杂的即时战略类游戏《星际争霸2》^[2]，从 AlphaGo ^[3] 在围棋界的一炮而红到最近 ChatGPT^[4] 在对话系统领域的技惊四座，现代强化学习技术已经将单个智能体（single-agent）的决策和控制推广到一个新的高度。

而另一方面，很多现实决策场景中，人们需要控制同时存在的多个智能体（multi-agent）来完成特定任务，并思考其中衍生出来的各类竞争和协作问题，具体包括交通信号控制 ^[5]，机器人协作 ^[6]，自动驾驶多车博弈 ^[7] 和各类多人对抗游戏等等。因此，强化学习相关研究也逐渐从单智能体领域延伸了到多智能体强化学习（Multi-agent Reinforcement Learning，MARL ^[8]）。

俗话说得好，工欲善其事，必先利其器。数据集/基准环境是启发机器学习领域发展和革新的重中之重，就像ImageNet ^[9]激发了图像分类领域的百花齐放，就像 Atari ^[10]系列环境启迪了各类强化学习算法的百家争鸣。而在多智能体领域，也涌现了出了 MPE ^[11-12]，SMAC ^[13]，MA-MuJoCo ^[14] 等一系列经典环境，但是，现有的这些环境在多智能体竞争与协作的扩展性和多样性方面仍比较初级，在决策空间的复杂性角度仍然过于简易（具体对比分析如下方表1所示），难以支持现有研究方法对海量智能体、多个智能团队之间的群体智能行为的进一步探索。

表1：GoBigger 与其他经典多智能体仿真环境的对比

图表1中，Agent Size 表示交互环境中的智能体规模，即队伍数量×每支队伍的队员（玩家）个数。动作空间（Action）和观察空间（Obs）分别代表决策问题的输出和输入空间，GoBigger 中定义了最贴近真实决策场景的混合动作空间和部分可观测观察空间。Coop 和 Comp 分别指代合作和竞争的重要性，”+“ 数量阅读代表相关指标的复杂度，GoBigger 在合作和竞争两个维度都蕴含着足够的复杂性和多样性。

为了尝试解决这一问题，将多智能体强化学习领域的研究推进到一个新的高度和广度， OpenDILab 团队提出了一个名为 GoBigger ^[15] 的交互仿真平台，构建具有挑战性的多智能体基准环境和算法 benchmark，并提供一系列具有高度可扩展性的关卡机制设计和表征建模方案。具体来讲，就是将”大球吃小球“这样简明的核心逻辑，扩展到不同智能体规模，不同对抗方式，不同特征编码和决策控制手段的对抗下，孕育海量智能体间的竞争与博弈，启发多智能体强化学习、群体智能和大规模智能体交互等等各种新兴研究方向。

相关论文《GoBigger: A Scalable Platform for Cooperative-Competitive Multi-Agent Interactive Simulation》已被机器学习领域顶级会议 ICLR 2023 所接收，完整环境及算法 benchmark 代码也已在 GitHub 上开源。

GoBigger GitHub repo：

https://github.com/opendilab/GoBigger

GoBigger-Explore GitHub repo：

https://github.com/opendilab/Gobigger-Explore

GoBigger ICLR 2023 paper：

https://iclr.cc/Conferences/2023/Schedule?showEvent=11881

视频1：GoBigger 中各类智能体互相博弈的酷炫表现

设计理念和机制

图2：GoBigger 整体平台设计概览图

如图2所示，系统中预设了多种循序渐进的多智能体博弈地图设定（2x2，3x2，4x2），并提供了一系列不同类型的内置 Bot 和天梯排名系统，用户可以便捷地遵循预定义的研究工作流程，无需担心环境运行机制和评测系统的各种细节问题，利用简洁的用户界面直击多智能体决策领域的核心算法研究问题。而对于高级用户，则可以根据需求自定义更加复杂的决策场景，GoBigger 也提供了相应开发者工具助力各类奇思妙想。

接下来，本文将从基本单元和游戏机制两方面具体介绍 GoBigger 中的设计细节，更详细的介绍和展示也可以参考原论文及 GitHub 官方仓库。

服务粉丝

ICLR 2023 | GoBigger：孕育海量智能体间的竞争与协作

文章推荐

相关阅读

博士申请 | 香港科技大学（广州）刘李老师招收人工智能全奖博士/硕士/RA

深圳内推 | 平安科技人工智能中心招聘算法实习生

重磅！埃斯顿与三一机器人达成战略合作

科技部首谈ChatGPT：有广泛应用潜力

2023年Android 纯应用的需求没了，智能座舱需求增加500%

实力认证！天际友盟荣获首届“兴智杯”全国人工智能创新应用大赛技术创新专题赛三等奖

一支不足百人的团队创造了 ChatGPT ：90 后挑大梁，应届生 11 人，华人抢眼

“特能聊的 ChatGPT”是智能对话技术的下半场吗？| Q推荐

微软 Azure 作为 OpenAI 独家云服务提供商，助力企业致胜人工智能时代

微软徐明强：谈谈ChatGPT及对技术的重新思考

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章