一 前言
《中国制造2025重点领域技术路线图》提出,到2025年驾驶辅助级、部分或高度自动驾驶级车辆的装备率应分别达到 40%和 50%,其旨在依托信息物理系统(Cyber Physical Systems,CPS)和信息通讯技术(Information Communication Technology,ICT)使车辆实现自动化、智能化、互联网化。
感知阶段是自动驾驶中的关键环节。对车辆周围环境信息全面、准确地感知是行车安全性和智能性的保障,也是决策与控制环节的前提。目前,自动驾驶场景的转变驱使着感知内容的深化,研究热点已从结构化高速公路场景更换至目标密集、复杂多变的城市场景如下图所示,
从二维识别、检测升级至三维多方位分析如下图所示:
相比二维感知仅获取二维(像素)坐标及轨迹,三维感知可全面获悉目标在空间中的距离、位姿、形状、速度等物理参数,大幅提高了感知的实用性、丰富性。面向产品化的感知系统的评价指标愈发多元,不仅以准确度和响应时间来衡量,还加入融合对比、感知范围、环境耐受性、冗余性、容错性等作为考核标准。
典型环境感知层架构可以分为三个部分:传感器层(Sensor Layer)、融合层(Fusion Layer)以及算法处理层(Algorithm Processing Layer),具体如图所示。
传感器层-负责读取、收集各个传感器的测量结果,即车辆以光学相机、激光雷达、毫米波雷达等采集周围环境数据,以定位装置(Global Positioning System,GPS)、惯量测量单元传(Inertial Measurement Unit,IMU)、速度计等采集自身行驶状态信息,将真实世界的视觉、物理、事件等信息转变成数字信号,便于之后处理。
融合层-负责多传感器之间的坐标标定,并根据预先定义的多传感器融合算法对传感器层传来的数据进行筛选/初步处理,最后将其进行数据/特征融合。
算法处理层-将接收的数据抽象为公共的障碍物特征表示,具体表征为对行驶环境中的目标或者障碍物进行识别、分割和检测,获取其类别、尺寸、几何形状、行驶方向、位置等物理和语义信息输出最终的障碍物结果(位置、速度、类别等)。
后文中将从基于单纯图像和多源传感器融合两种技术分别进行说明。
二 基于视觉信息融合技术
视觉传感器,又称车载摄像头,是将物体通过镜片产生光学图像投射在CMOS光电传感器上,经过模数转换后变为数字信号,再由特定处理器将信号处理成特定格式的图像在显示屏上显示。自动驾驶汽车安装的车载摄像头主要为单目摄像头、双目摄像头和三目摄像头。
单目摄像头是通过摄像头拍摄的平面图像来感知和判断周边环境,识别车辆、路标、行人等固定物体和移动物体,是目前汽车摄像头的主流解决方案,其依靠复杂算法进行测距,准确度低,
其优点在于探测信息丰富,观测距离远,其缺点在于探测易受环境影响。
在单目摄像头领域,单目摄像头的技术核心在于视觉处理芯片,芯片技术壁垒高,主要掌握在Mobileye、索尼、三星等公司手中。Mobileye占据约80%的市场份额,处于垄断地位。Mobileye已成为沃尔沃、大众、奥迪、现代、宝马、日产等大型汽车主机厂单目摄像头的供应商。
Mobileye将视觉芯片命名为EyeQ1-5,EyeQ5于2017年推出,其计算性能是前身EyeQ4的8倍,每秒可处理2.5万亿次操作。国内车载摄像头公司开始积极布局单目摄像头领域,部分零部件已实现量产,但系统集成配套产品仍处于研发进程。
双目摄像头是通过模仿人眼的功能实现对物体距离和大小的感知,进而感知周边环境,可通过视差和立体匹配计算精准测距。
业内很多新兴的初创公司,为了避开与Mobileye的正面竞争,选择从双目切入。但双目也存在两个关键的问题。第一是成本问题,第二是安装位的问题。
第一个问题是,双目的方案,两个镜头理论上要一模一样,因为一旦存在差异,会使得测量的准确性大打折扣。业内也会称之为立体摄像头。但一个摄像头是由6个光学的镜片和一些传感器组成,而玻璃镜片的生产制造是打磨出来的,并不是压制而成的。这就从根本上产生了镜片生产存在差异性的问题。
第二个问题是,双目摄像头同时也存在摆放位置的问题。两个镜头之间的距离是10-20cm之间,这个距离需要非常精准,因为这会直接关系到测距的准确性。
由于汽车使用的环境复杂多变,只是温度要求,都是在-40—85度。而传统器材必然有热胀冷缩的问题,那么这就会影响到两个镜头之间的距离。
三目摄像头是通过三个摄像头覆盖不同范围的场景,解决了摄像头无法切换焦距的问题,相比于单目摄像头和双目摄像头,其拥有更好的视野广度和精度,但三目摄像头在判断、测算障碍物距离的时候,由于摄像头的精准度是有一定误差范围的,所以衍生了一个核心的逻辑问题,三个不同的摄像头在相互交汇处,两个相邻摄像头测算的障碍物距离可能是不同的,会普遍存在10米的误差;且三目摄像头由于计算量大,对芯片的数据处理能力要求高,目前成本相对较高。
下图是特斯拉Autopilot上搭载的摄像头情况:
特斯拉自2016年起自研芯片,2019年实现FSD芯片量产,算力达到144TOPS,约为英伟达Xavier的5倍,也是其第三代智能驾驶系统AutoPilot 3.0的核心卖点。目前除特斯拉国内外大多数自动驾驶汽车都配备了多种传感器,以便通过处于不同位置的多个或者多种传感器来采集周遭信息,弥补单一传感手段不够丰富、可靠的缺陷,实现预测性驾驶。
此处仅以双目摄像头成像原理说明,双目摄像机结构光测量系统首先是通过投影仪把编码的结构光图案投射到被测物体表面,然后用摄像机对已经投上编码结构光的被测物体进行图像采集,随后利用计算机对采集的图像进行特征点提取及相位匹配,最终获得物体的三维信息。
双目摄像机结构光测量的系统模型如图所示:
双目摄像机三维重建的工作是基于左右摄像机采集图像的相位匹配,与投影仪的位置无关,因此没有必要进行投影仪和摄像机之间的标定,只需要进行常规的双目摄相机标定,从而使得测量系统具有更大的可操作性和灵活性,而且测量系统整体更加稳定,鲁棒性更高。
双目摄像头三维重建流程大致为,首先进行双目摄像头系统标定,标定目的为了获取左、右摄像机之间的空间位置关系,即根据物理世界中某个平面上已知点的坐标及该点摄像机成像面上的坐标,求出该平面到摄像机成像面上的映射关系,求出投影矩阵。
再进行立体匹配,即对于视觉测量系统采集的图像,从一幅图像上寻找与另一幅图像相对应的点的过程,先找到两幅图像中的对应点,然后计算出点的坐标信息,最后进行三维重建,有了立体匹配结果,结合摄像机标定的内外参数,就可以恢复出三维场景信息,即三维点云坐标信息。
三 什么是多源传感器融合?如何分类?
车辆的自动驾驶运行,需要汇总处理各个传感器接收到的信息,如人类天生就具备将已有知识与身体各个器官探测的信息进行综合的能力,自动驾驶的运行亦需要此种能力--多源数据融合就是对这种能力的模拟。
一个完备的自动驾驶系统往往配备有激光雷达、相机、GPS系统等多个传感器,每个传感器产生的数据是十分巨大的。如果只单独处理每个传感器的信息,会丢失信息之间关联性,降低了信息的利用率,对后期决策造成极大影响。
多源数据融合--多传感器数据融合,其目的在于将各个信息源的信息充分利用,合并冗余信息,组合互补信息,以得到对被测对象的一致性描述和解释。
该过程是整合多个传感器各自优势的过程,通过利用不同传感器间信息互补的特性,可以获取比单个子集更精确的感知能力。
多传感器融合具有以下优势:
1.可以增加测量维数,提高信息能够被信赖的程度,增加置信度,提高系统容错性、可靠性以及安全性;
2.经过不同传感器的组合,可以有效扩大传感器检测范围,增强环境鲁棒性;
3.降低了对单个传感器的性能要求,当单个传感器发生故障时,系统仍然可以保证正常的运行,提高了信息处理的速度;
4.降低了信息获取的成本,提高了系统精度。
融合的方式可以分为按照时间同步和按照空间同步:
1.时间同步是把不同传感器在同一时刻收集到的关于同一物体的信息融合起来-常规处理方法是,将不同传感器在规定时间段采集到的信息筛选出来,并根据采用内插外推等方法将其按照精度高低进行排序,以实现同一时间下不同传感器的统一;
2.空间同步是把不同传感器采集的信息求解到同一坐标系下,这一同步主要是通过单个传感器的标定以及多个传感器联合标定来完成的,即求解不同传感器间的坐标转换关系。在完成空间同步后可以将同一物体在不同传感器下的信息对应起来。
若按照结构模式可以分为:
若按照更合适的信息融合所在层次可分为:
从系统设计的灵活性来考虑,采用特征级融合的方式可根据不同数据来设计不同的特征提取模块,对比于数据级融合从某种程度上提升了系统的灵活性。因为数据级融合对于物理特性相近的图像数据而言比较容易,但由于数据的异构性,对于像雷达数据、激光雷达数据这种与图像在数据形式上差别较大的多模态融合就比较难。
特征级融合也需要将提取后的特征设计成可融合的数据形式,而决策级融合仅需要对目标之间进行匹配。因此,决策级融合的方式在系统灵活性方面相对于其他融合方式更好。
而从系统的稳定性来考虑,当某个传感器无法正常工作,例如红外和可见光融合时场景突然变暗或者光线突然增强都会导致某种模态失效,决策级融合可以通过算法来规避识别结果无效的情况,而数据级融合和特征级融合可能因为单一数据的退化导致整个系统失效。
四 基于多源传感器数据融合
摄像头捕获的图像包含了目标的颜色信息以及丰富的纹理信息,但是摄像头相对于其他传感器则容易受到光线的影响,若没有足够复杂智能且足够验证的算法,是无法很好适用,同时单个摄像头难以感知周围环境的空间结构信息;
激光雷达具有全天候的感知能力,能够很好地捕获环境结构信息以及目标的轮廓信息,测量不受光线强弱影响但数据稀疏无序,而摄像头的数据分辨率高、细节特征丰富,两者具有极强的互补特性(但在实际应用过程中,超过100m的目标不论是激光雷达还是摄像头,都很难对其准确的识别)。
因此,多模态的传感器数据融合可以增加目标识别系统的鲁棒性,提高行车过程中系统的感知能力。
不同的感知设备由于感知的原理不同,实际上传感器采集到的数据在帧率、视角FOV、探测距离、分辨率等关键参数上均不同。
从时间同步上来说,不同传感器的数据采样率不同,这会导致生成的数据帧率在时间上不统一。数据融合时实际使用的数据通过 GPS 时间戳提供全局的基准,从而依据最近原则来判断具体使用的数据帧,并且丢掉多余的数据帧。
从空间同步上来说,即多源传感器数据在空间上一一对应,需要对传感器本身和传感器之间进行标定,
其中以视觉为例,摄像头的标定是建立世界坐标系中的点与像素的对应关系,使用三维世界中任意一点可以准确映射到二维图像上,标定结果由相机内部参数(内部刻画相机坐标系与图像像素的关系,和镜头在成像过程中对图像产生的畸变,在成像时畸形纠正保持图像与外部环境一致)和外部参数呈现(表示世界坐标系三维坐标与二维图像坐标系中的映射关系)。
由以上可知,当选择shi激光雷达和摄像头作为感知传感器时,激光雷达具有视野广、感知范围大、具有夜视能力且可以直接输出目标精确的深度信息的优势,然而,三维激光雷达点云的分布是随着扫描距离的增加而变得越来越稀疏,因此如果仅依赖三维激光雷达输出的点云进行精确的目标分类会有很大的困难。相机输出的高分辨率图包含丰富的颜色、纹理信息,特别适合精确的目标分类。
多源传感器数据本质上是对同一环境的不同的特征表示,因此从数据特征上考虑,多源传感器数据特征是相关的,利用独立的模块割裂地学习多模态数据特征仅仅是将多种特征提取结果简单融合在一起。然而,对于同一种场景下,不同传感器的信息表征能力是不同的,对于阴影和光照变化等环境,摄像头传感器可能更容易受到影响。同时,对于不同类别物体具有相同的形状时,如上文所说依靠激光雷达的数据可能会变得更加难以对目标进行准确的分类。
五 基于多传感器数据融合方法实例
以前向视角驾驶环境感知为例,选取激光雷达和摄像头同时采集到的图像和点云数据,完成视觉与激光雷达数据级的融合。
首先需要进行的是激光雷达与摄像头的联合标定,指将激光雷达点云三维坐标系投影至相机二维坐标系下:
两种传感器的联合标定过程就是求解与RGB(红绿蓝)相机相关的激光雷达的旋转矩阵R和平移矩阵t 。标定原理可用如下公式表述:
式中:
是像素坐标系下点坐标的齐次形式:
表示相机在x和y方向的焦距:
表示相机的主点坐标,R和t表示联合标定需求的旋转矩阵和平移矩阵:
表示激光雷达坐标系下的坐标值,M=(M11,M12,……,M34)为待求解的参数。
以KITTI数据集中sequence-3882序列为例,求解得,(KITTI数据集由德国卡尔斯鲁厄理工学院和丰田工业大学芝加哥分校联合赞助的用于自动驾驶领域研究的数据集)
其中,P0,P1,P2,P3,P4表示投影矩阵,用于从矫正后的0号相机坐标系投影到X号相的图像平面,0,1,2,3代表相机的编号:0表示左边灰度相机,1表示右边灰度相机,2表示左边彩色相机,3表示右边彩色相机。
R0_rect表示0号相机旋转矩阵,用于矫正0号相机,使得图像平面共面,Tr_velo_to_cam表示Velodyne激光雷达坐标系与0号相机间的变换矩阵(R|t)。
将Velodyne激光雷达坐标系中的点x投影到2号相机的彩色图像中,对应彩色图像中的点y为:
将Velodyne激光雷达坐标系中的点x投影到3号相机的彩色图像中,对应彩色图像中的点y为:
得到激光雷达与相机的坐标转换关系后,则可以将 RGB 图像与激光雷达数据中的点一一对应起来。
由相机拍摄到的RGB图像通常可以用尺寸为H×W×3的三维张量来表示,其中H和W分别表示图像的高度和宽度,这两个维度编码了图像的空间位置信息以及所有点的像素信息。
然而由Velodyne64线3D激光雷达采集到的点云数据与二维图像的编码模式不同。采集到的一个雷达点通常表示为(x,y,z,intensity),分别代表该点的三维坐标信息以及反射强度信息,
相机拍摄到的二维图像及其对应的原始点云数据可视化效果如下图所示:
相比于图像数据的密集有序,激光雷达所采集的点云信息是散乱无序地分布在三维空间中的,这使得数据处理的难度大大增加。并且每一个扫描到的点云的数据量都很大,特征量大、处理复杂度高。如果直接在原始点云数据的基础上进行特征提取以及目标识别分割,此时处理难度较大,且其实时性较低,不适合当前的自动驾驶环境。
除此之外,如果采用空间体素来编码点云信息会导致空缺信息过多,从而降低识别的准确度。在经过激光雷达与相机联合标定后,可以将激光雷达投影至相机图像中,得到激光雷达与相机一一对应的点对关系。
由于采集点云数据时使用的是64线激光雷达,故二维投影后图像高度为64,同时由于关注前视角中的环境感知问题,所以只选取了前视角中的512个单元格,故二维投影后图像宽度为512,采用球面投影的方式将点云数据投影至2D平面,并且根据点云中每个点的坐标(x,y,z,intensity)将投影转化成了三个通道,分别是点的深度图、高度图以及反射强度图,图像可视化结果如下图所示:
深度
高度图
反射强度图
同时,为了使无人车对于其所处驾驶环境具有一个全局的、广阔的感知视野,本文还将原始点云数据转换成对应的鸟瞰图形式,点云鸟瞰图可视化结果如图,
活动推荐:
华车展ICVS将于2022.9.26-29 苏州国际博览中心举办中国智能汽车及自动驾驶博览会,同期举办:中国智能汽车产业链展,展会规模超30,000㎡、参展品牌500+、共计30,000+专业观众到场,同期还有100场行业大咖演讲。点击ICVS自动驾驶商业化主页—>进入菜单栏展会报名页面,即可免费领取参观门票,现阶段报名还将获取更多福利。
留言与评论(共有 0 条评论) “” |