服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

ICLR 2023 | GoBigger:孕育海量智能体间的竞争与协作

日期: 来源:PaperWeekly收集编辑:创新的


引言


近些年来,强化学习已经在各种各样的决策任务中大放异彩,从各类经典的红白机游戏 [1] 到最复杂的即时战略类游戏《星际争霸2》[2],从 AlphaGo [3] 在围棋界的一炮而红到最近 ChatGPT [4] 在对话系统领域的技惊四座,现代强化学习技术已经将单个智能体(single-agent)的决策和控制推广到一个新的高度。


而另一方面,很多现实决策场景中,人们需要控制同时存在的多个智能体(multi-agent)来完成特定任务,并思考其中衍生出来的各类竞争和协作问题,具体包括交通信号控制 [5],机器人协作 [6],自动驾驶多车博弈 [7] 和各类多人对抗游戏等等。因此,强化学习相关研究也逐渐从单智能体领域延伸了到多智能体强化学习(Multi-agent Reinforcement Learning,MARL [8])。


俗话说得好,工欲善其事,必先利其器。数据集/基准环境是启发机器学习领域发展和革新的重中之重,就像ImageNet [9]激发了图像分类领域的百花齐放,就像 Atari [10]系列环境启迪了各类强化学习算法的百家争鸣。而在多智能体领域,也涌现了出了 MPE [11-12],SMAC [13],MA-MuJoCo [14] 等一系列经典环境,但是,现有的这些环境在多智能体竞争与协作的扩展性和多样性方面仍比较初级,在决策空间的复杂性角度仍然过于简易(具体对比分析如下方表1所示),难以支持现有研究方法对海量智能体、多个智能团队之间的群体智能行为的进一步探索。


表1:GoBigger 与其他经典多智能体仿真环境的对比


图表1中,Agent Size 表示交互环境中的智能体规模,即队伍数量×每支队伍的队员(玩家)个数。动作空间(Action)和观察空间(Obs)分别代表决策问题的输出和输入空间,GoBigger 中定义了最贴近真实决策场景的混合动作空间和部分可观测观察空间。Coop 和 Comp 分别指代合作和竞争的重要性,”+“ 数量阅读代表相关指标的复杂度,GoBigger 在合作和竞争两个维度都蕴含着足够的复杂性和多样性。


为了尝试解决这一问题,将多智能体强化学习领域的研究推进到一个新的高度和广度, OpenDILab 团队提出了一个名为 GoBigger  [15] 的交互仿真平台,构建具有挑战性的多智能体基准环境和算法 benchmark,并提供一系列具有高度可扩展性的关卡机制设计和表征建模方案具体来讲,就是将”大球吃小球“这样简明的核心逻辑,扩展到不同智能体规模,不同对抗方式,不同特征编码和决策控制手段的对抗下,孕育海量智能体间的竞争与博弈,启发多智能体强化学习、群体智能和大规模智能体交互等等各种新兴研究方向。


相关论文《GoBigger: A Scalable Platform for Cooperative-Competitive Multi-Agent Interactive Simulation》已被机器学习领域顶级会议 ICLR 2023 所接收,完整环境及算法 benchmark 代码也已在 GitHub 上开源。


GoBigger GitHub repo:

https://github.com/opendilab/GoBigger


GoBigger-Explore GitHub repo:

https://github.com/opendilab/Gobigger-Explore


GoBigger ICLR 2023 paper:

https://iclr.cc/Conferences/2023/Schedule?showEvent=11881


视频1:GoBigger 中各类智能体互相博弈的酷炫表现

设计理念和机制


图2:GoBigger 整体平台设计概览图


如图2所示,系统中预设了多种循序渐进的多智能体博弈地图设定(2x2,3x2,4x2),并提供了一系列不同类型的内置 Bot 和天梯排名系统,用户可以便捷地遵循预定义的研究工作流程,无需担心环境运行机制和评测系统的各种细节问题,利用简洁的用户界面直击多智能体决策领域的核心算法研究问题。而对于高级用户,则可以根据需求自定义更加复杂的决策场景,GoBigger 也提供了相应开发者工具助力各类奇思妙想。


接下来,本文将从基本单元游戏机制两方面具体介绍 GoBigger 中的设计细节,更详细的介绍和展示也可以参考原论文及 GitHub 官方仓库。


相关阅读

  • 深圳内推 | 平安科技人工智能中心招聘算法实习生

  • 合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!平安科技平安科技是平安集团旗下科技解决方案专家,致力
  • 重磅!埃斯顿与三一机器人达成战略合作

  • 近日,南京埃斯顿自动化股份有限公司(下称:埃斯顿)与三一机器人科技有限公司(下称:三一机器人)在长沙举行战略合作签约仪式,双方将在智能制造领域建立长期战略合作伙伴关系。据悉,双方
  • 科技部首谈ChatGPT:有广泛应用潜力

  • 以下文章来源于维科网物联网,作者Matthew24日上午,国新办举行“权威部门话开局”系列主题新闻发布会,科学技术部相关负责人介绍“深入实施创新驱动发展战略,加快建设科技强国”
  • 微软徐明强:谈谈ChatGPT及对技术的重新思考

  • 点击上方蓝字关注我们(本文阅读时间:6分钟)是2023 Microsoft Azure中国区年度技术峰会启幕之际,Azure 云科技推出的专栏。我们邀请了业界富有前瞻视野的技术、业务专家,畅谈行业

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 深圳内推 | 平安科技人工智能中心招聘算法实习生

  • 合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!平安科技平安科技是平安集团旗下科技解决方案专家,致力
  • 重磅!埃斯顿与三一机器人达成战略合作

  • 近日,南京埃斯顿自动化股份有限公司(下称:埃斯顿)与三一机器人科技有限公司(下称:三一机器人)在长沙举行战略合作签约仪式,双方将在智能制造领域建立长期战略合作伙伴关系。据悉,双方
  • 比克动力冲刺资本市场!

  • 以下文章来源于维科网锂电 ,作者尔东来自比克动力股东方的消息,透露比克动力在资本市场层面的新动向。长信科技(300088)于2月16日在投资者互动平台上,回答了投资者关于“比克动力