服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

自动驾驶,Nature!

日期: 来源:科学百晓生收集编辑:SSC

▲第一作者:Shuo Feng

通讯作者:Henry X. Liu

通讯单位: 美国密歇根大学

DOI:

https://doi.org/10.1038/s41586-023-05732-2


01

研究背景


由于自动驾驶汽车(AV)技术的快速发展,我们正处于交通革命的风口浪尖,其规模是自一个多世纪前汽车问世以来从未见过的。自动驾驶技术有可能大大改善交通安全、流动性和可持续性,因此吸引了全世界工业、政府机构、专业组织和学术机构的关注。在过去的20年里,AV的发展取得了实质性的进展,特别是随着深度学习的出现。2015年,几家公司宣布他们将在2020年前大规模生产AVs。到目前为止,他们并没有达到这些期望,没有任何达到4级的自动驾驶汽车可以商业化。这其中的原因有很多。但最重要的是,自动驾驶汽车的安全性能仍然大大低于人类驾驶员的水平。对于美国的普通司机来说,在自然驾驶环境(NDE)下,车祸的发生概率约为1.9×10-6每英里。相比之下,根据美国加州2021年的脱离报告,最先进的AV的脱离率约为2.0×10-5每英里。虽然脱离率因其潜在的偏见而受到批评,但它已被广泛用于跟踪AV安全性能的趋势,因为它可以说是唯一可供公众比较不同AV的统计数据。当前,阻碍自动驾驶汽车发展和部署的一个关键瓶颈是:由于安全关键事件的罕见性,在自然驾驶环境中验证其安全性所需的经济和时间成本过高。


02

研究问题


本研究提出了一个智能测试环境,其中基于人工智能的背景代理被训练来验证自动驾驶车辆在加速模式下的安全性能。在自然的驾驶数据中,背景代理通过密集的深度强化学习(D2RL)方法来学习执行对抗性的动作。在这种方法中,马尔可夫决策过程被编辑,删除非安全关键状态并重新连接关键状态,从而使训练数据中的信息被密集化。D2RL使神经网络能够从带有安全关键事件的密集信息中进行学习,并实现了传统的深度强化学习方法难以完成的任务。本研究通过在高速公路和城市测试轨道上测试一辆高度自动驾驶的车辆来证明本研究的方法的有效性,测试环境是一个增强现实环境,将模拟背景车辆与物理道路基础设施和真正的自动驾驶测试车辆相结合。结果表明,经过D2RL训练的代理可以将评估速度提升多个数量级(103到105倍)。此外,D2RL将能够加速与其他安全关键的自主系统的测试和训练。
 

▲图1|用密集型学习方法验证安全关键型人工智能


要点:
1、在 NDE 中验证 AV 的安全性能本质上是一个高维空间中的罕见事件估计问题。主要挑战是由“稀有性诅咒”和“维数诅咒”的复合效应引起的(图 1a)。所谓“维数灾难”就是驾驶环境在时空上可能是复杂的,定义此类环境所需的变量是高维的。随着变量空间的体积随维数呈指数增长,计算复杂度也呈指数增长。
2、本研究通过开发密集的深度强化学习 (D2RL) 方法来应对这一挑战。基本思想是识别和删除非安全关键数据,并利用安全关键数据训练神经网络。由于只有极小部分数据是安全关键的,其余数据的信息将被大幅加密。本质上,D2RL 方法通过删除非临界状态并重新连接临界状态来编辑马尔可夫决策过程,然后仅针对编辑后的马尔可夫过程训练神经网络(图 1b)。因此,对于任何训练情节,来自最终状态的奖励将沿着仅具有关键状态的编辑马尔可夫链反向传播(图 1c)。与 DRL 方法相比,D2RL 方法可以在不损失无偏性的情况下显着降低多个数量级的策略梯度估计的方差。
3、为了使用经过 D2RL 训练的测试环境安全准确地测试 AV,本研究开发了一个增强现实测试平台,该平台结合了物理测试轨道和微观交通模拟器 SUMO(城市交通模拟)。如图 1d 所示,通过同步真实 AV 和虚拟 BV 的运动,物理测试轨道中的真实 AV 可以与虚拟 BV 进行交互,就好像它处于真实的交通环境中,BV 会被引导从而与真正的 AV进行交互。
 

▲图2|使用极端情况生成示例将 D2RL 与 DRL 进行比较


要点:
1、为了证明密集学习的有效性,本研究将 D2RL 与 DRL 方法进行了比较,以解决极端案例生成问题,后者可以表述为定义明确的强化学习问题。训练神经网络通过控制最近的八个 BV 的动作来最大化 AV 的碰撞率(图 2a)。本研究使用近端策略优化 (PPO)来更新策略网络的参数,给定每个测试事件的奖励,即 AV 崩溃为 +20,其他为 0。为了公平比较,DRL 和 D2RL 之间的唯一区别是:DRL 使用所有数据来训练神经网络,而 D2RL 仅使用临界状态的数据。
2、如图 2b 所示,与 DRL 相比,D2RL 从非临界状态移除了 80.5% 的完整情节和 99.3% 的步骤的数据。根据定理 1,这表明 D2RL 可以减少大约 99.3% 的策略梯度估计方差,从而使神经网络能够有效地学习。具体来说,D2RL 可以在训练过程中最大化奖励,而 DRL 从训练过程开始就卡住了(图 2c)。D2RL 学习的策略可以有效地增加 AV 的碰撞率,而 DRL 未能做到这一点(图 2d)。图 2e-g 说明了三个生成的极端情况。
3、D2RL 的策略梯度估计器具有以下性质(定理1)

 

▲图3|基于D2RL的智能测试环境性能评估


要点:
1、图 3 显示了 AV-I 模型在 400 米行驶距离的双车道高速公路环境下的结果,这是验证本研究方法的基本实验。如图3a所示,在训练过程中,智能测试环境的估计方差随着奖励函数的增加而减小,证明了方程(1)中奖励函数的有效性。
2、为了证明 off-policy 机制的合理性,本研究关注了 on-policy 机制的性能,其中目标策略被用作行为策略。如图 3b 所示,在训练过程中,on-policy 实验的崩溃率大幅增加,而 off-policy 实验的崩溃率没有变化,因为行为策略没有改变。然而,由于 on-policy 机制打破了奖励函数和估计方差之间的一致性,这种崩溃率的增加会产生误导。如图3c所示,on-policy机制得到的测试环境低估了崩溃率。相比之下,本研究的方法可以获得与 NDE 方法相同的崩溃率,但效率更高(图 3d,e)。
3、为了衡量效率,本研究计算了达到预定精度阈值的最小测试次数(相对半宽为 0.3)。为了减少结果的随机性以进行公平比较,通过自举抽样重复测试本研究的方法,并获得所需测试次数的频率和平均值(图 3f)。与需要 1.9 × 108 次测试的 NDE 方法相比,本研究的方法平均需要 9.1 × 104 次测试,比以前的快了 2100 倍。
 

▲图4|在物理测试道路上测试真实世界AV的实验


要点:
1、最后,本研究测试了配备开源自动驾驶系统 Autoware(图 4a)的林肯 MKZ 混合动力车,在 ACM 的物理多车道的4 公里高速公路测试道路(图 4b)和物理环境中连续行驶。Mcity 的城市测试轨道如图 4c所示。
2、图 4d 说明了测试过程的实时可视化。本研究使用与模拟研究类似的训练设置,在 ACM 高速公路路段和 Mcity 城市路段的数字孪生环境中训练了智能测试环境。如图 4e-h 所示,在ACM进行了大约156次测试和Mcity进行了117次测试后,该模型收敛并达到了 30% 的相对半宽,迭代约105 次,比 NDE 测试方法的那些(ACM 的 2.5 ×107 和 Mcity 的 2.1 ×107)更快。本研究还评估了 AV 在不同碰撞类型和严重程度下的安全性能(图 4i、j)。


03

结语


本研究注意到,人们也越来越关注解决人工智能系统提出的挑战的正式方法。形式化方法为严格的系统规范、设计和验证提供了数学框架,这对于可信赖的 AI 至关重要。然而,正如参考文献中所讨论的那样:要充分发挥其全部潜力,需要应对多项重大挑战。D2RL 可以与形式化方法集成。例如,基于可达性的方法可以纳入关键性度量的计算中,以识别关键状态,特别是对于通用的安全关键自主系统。本研究指出,如何将 D2RL 与形式化方法进一步结合值得进一步研究。

       

相关阅读

  • 精品干货:电化学工作站开机以及仪器自检

  • 电化学工作站开机以及仪器自检是大家容易忽视的,但也有一些小问题需要注意。电化学工作站的开机,要注意开机顺序,先开工作站后开软件,否则会出现link failed。单通道工作站额外
  • 2883 网友评价生财有术,最多的一个词!

  • 上周六我去参加了,生财有术第 6 期的全国线下大会。这次有 1000 多圈友来参加,场面确实有点热闹哈哈 ——马上又要到生财有术第 7 期了。我在生财有术创建的第一天,就加入了,一
  • 说民生丨让无障碍需求惠及全体社会成员

  •   于熙  今年我区6300余户残疾人家庭无障碍改造工程已全面启动,“十四五”期间,我区将完成19931户残疾人家庭无障碍改造任务。这些彰显民生温度的举措,保障了特定群体的需
  • 石家庄调整2023年中考体育考试测试项目

  • 石家庄市教育局对2023年石家庄市初中毕业升学体育考试测试项目进行调整为保持中考的严肃性、科学性,保证学生日常练习、考试安全,循序渐进地开展体育锻炼,在坚持学生生命安全和

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 一作+通讯,Nature Chemistry!

  • ▲第一作者:Xiangbing Zeng通讯作者:Xiangbing Zeng通讯单位: 英国谢菲尔德大学DOI:https://doi.org/10.1038/s41557-023-01166-501研究背景由于1984年在金属合金中发现了准晶体
  • 浙大陆俊&河南师大白正宇/杨林,最新Angew!

  • 第一作者:Jingjie Liu和Yifei Yuan通讯作者:陆俊教授、白正宇教授和杨林教授通讯单位:浙江大学和河南师范大学DOI:https://doi.org/10.1002/anie.202302547研究背景在层状氧化物
  • 自动驾驶,Nature!

  • ▲第一作者:Shuo Feng通讯作者:Henry X. Liu通讯单位: 美国密歇根大学DOI:https://doi.org/10.1038/s41586-023-05732-201研究背景由于自动驾驶汽车(AV)技术的快速发展,我们正处于
  • 一通挪车电话,引出一个“大秘密”……

  • 接到一通挪车电话,赶过去发现那不是自己的车,但号牌却与自己爱车的号牌一样,这是什么情况!众所周知,一车一号,每辆车都有自己的专属牌照,两车同牌,必有一“套”!近日,南海的韩先生(化名