服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

对话理想智驾VP郎咸朋: 轻地图、GPT将如何改变自动驾驶?

日期: 来源:机器之心收集编辑:曹锦
作者 / 曹锦
在车企争先恐后推送城市NOA的节点,大家对这一功能的实际效果却是褒贬不一。在这一背景下,理想汽车在上海车展宣布,AD Max 3.0的城市NOA导航辅助驾驶,将于第二季度开启推送,并于年底前完成100个城市的落地,且对用户终身免费。
在这套城市NOA算法中,使用了三种神经网络大模型算法:静态BEV网络算法,动态BEV网络算法以及Occupancy网络算法。
在通过此套方案宣布其进入「智驾3.0时代」后,理想汽车智能驾驶副总裁郎咸朋,以及理想智能驾驶产品负责人赵哲伦接受了我们的访谈,他们不仅进一步解释了理想城市NOA的特点,还对现下流行的技术方案、后续的升级问题,以及未来的路线给出了自己的见解。
关于对城市NOA的「信任感」
据介绍,AD Max 3.0的城市NOA所采用的静态BEV,可以在部分摄像头被遮挡,车道线模糊时依旧补充出道路结构,解决高精地图数据实时性的问题。
动态BEV神经网络也具备了一定的「脑补」能力,例如当车辆同时出现在多颗摄像头视野内时,动态BEV可以稳定追踪并感知出物体的距离与速度。
Occupancy网络算法则可以对物理世界进行数据化建模,通过纯视觉还原真实场景,例如路侧垃圾桶、临时的施工牌等「通用障碍物」。同时,理想汽车还使用NeRF技术,进一步提升了Occupancy在远距离的分辨率,加强系统的感知能力。
针对这套方案的特点和思考,郎咸朋和赵哲伦与我们进行了深入的讨论。
Q:您可否对「静态BEV、动态BEV」这两个名词加以解释?
赵哲伦:所谓静态BEV,就是将静态世界用BEV算法还原出来,也就是车道线和道路的结构,可以理解为这些即是用高精地图做的部分,也是变化较少的部分(除了施工改道等变化)。
而动态就是指不断变化的交通参与者,例如人,骑车人,车,偶尔还会有一些动物之类的元素。
另外,除了静态和动态,我们还提出了「通用障碍物」,即那些不需要区分类型,但依然需要避让的元素,我们用Occupancy算法去完成这部分的识别。
实际上,向城市NOA发展动态参与者会非常复杂,虽然静态来讲相对稳定,但是识别也需要非常准确。理想将这三种算法整合在一起,对其进行预测。
Q:如何选择推送城市NOA的城市,需要有什么先决条件?
郎咸朋:我们的基础架构不受限于高精地图,城市NOA的开放逻辑是基于训练里程的,这就取决于这座城市里的车主保有量及开车频率。哪里的训练量足够多,实际路口的通行次数够多,哪里就可以开放。

(理想汽车智能驾驶副总裁 郎咸朋)

Q:这套系统可以适应哪些场景?
赵哲伦:关于城市NOA适应的场景,这是行业共同的问题,也就是长尾问题:要覆盖大部分的生活场景并不是很难的事,但剩下的小部分场景却非常难解决。
整个物理世界被分割成三个部分:第一部分是静态的道路结构,第二部分是动态的交通参与者;第三部分是障碍物——中国存在非常多的改道和施工,第二与第三部分在这里尤为复杂,与北美相比是数量级的差别。
这些因素导致最后的10%乃至1%,会需要比较长的迭代周期。
如果以「接管率」作为要求,我们认为初期做到「单次行程接管一次以内」就算是较好的用户体验。再往后是一天接管一次,一周接管一次……如果能做到一周接管一次,那就非常有用户价值了。
Q:如果可以量化疲劳度,什么时候城市NOA的体验能达到比较安心的状态?
赵哲伦:在高速路的固定场景中,我们很容易掌握别的车和自己车的边界在哪里,但城市的场景中有很多需要预测的部分,如果人对车的决策无法预知,就容易心慌。
所以,理想在城市NOA的环节,为了让用户提高信任度,会进一步优化整个交互上的显示,让驾驶员能更理解AI的思维方式。
例如,在车机的EID上,你可以看到车辆有没有预测到会和别车交汇,也就明白车辆将会制动,你也就会更有安全感。其实现在特斯拉在北美最新的交互上已经有这样的展示了,它会预告车的加减速或者制动,这样会在很大程度上提升信任感。
另外还有接管率的问题,虽然城市场景比高速难很多,但是我们基本上能做到20-30公里接管一次。
Q:年底规划开发100个城市,这是个恐怖的速度。反过来在安全层面,我们在人机互驾上有没有考虑过优化升级?
赵哲伦:人机互驾对用户的要求也是比较高的。大家如果关注现在的高速辅助驾驶,目前至少在理想的用户中,使用率还是比较高的,日活能达到30%,是一个比较高的数字。
但用户需要清晰地掌握它的边界,才能很好的使用。如果放眼整个汽车行业,依然有大部分用户没怎么真正使用过这样的系统。
所以,在城市NOA的推送过程中,也会参考从核心高频率使用、至少是对辅助驾驶有深刻了解的用户来首先推送。
Q:理想的城市NOA方案没有收费,可是友商都在收费,这样做的逻辑是什么?
赵哲伦:如果订阅,每年基本需要付数千元,到卖车的时候也付了数万元了,但这笔费用其实完全没有任何的保值作用。
我们考虑的是,如何让在用户卖二手车的时候,车整体上仍是他的「资产」,而不是他的「消费」,所以我们会选择前期以一个低成本的硬件BOM价格去预埋在车上,硬件的成本是在车里面的。
但是在卖车的时候,这个价值依然能得到体现,而且其软件功能其实更强大了,价值体现得更加充分。
关于高精地图的痛点与思路
Q:我想知道理想对于高精地图的态度是怎样的?
郎咸朋:如果你说有一张高精地图,它覆盖了中国所有的道路,每分钟就能更新一次,而且还很便宜,1块钱就能用一天,我肯定会非常赞同使用高精地图。
但是,我刚才提到高精地图有三个特点:
1、高精度
2、高鲜度
3、数据的信息量、丰富度高
这3个特点又恰恰是高精地图的制约点:如果想获得高鲜度,势必要频繁更新;如果想获得元素丰富的信息,制作工艺又势必会非常复杂。
还有一个原因是我们国家实在是太大了,所有的道路一共有1000万公里左右。(其中高速公路只有30万公里的高速,所以说在高速场景利用高精地图还是能实现的。)
如果想把这1000万公里的道路全都做一遍高精地图,需要花费上亿元的成本。因为每做1公里高精地图,大概是100元的成本。
所以,为什么大家都不用高精地图了,并不是说其本身不好,而是我不具备使用它的条件。
同时,还有另一个问题,之前做高精地图,是因为还没有静态BEV、动态BEV等算法。这两年,因为大家认为高精地图存在使用痛点,而且随着算法能力变强、车身传感器增多,逐渐就有了静态特征信息的检测算法。利用静态BEV算法,相当于在开着车的同时,局部图就构建好了。
现在我们做的并不是高精地图,而是智能驾驶所需的元素、特征、信息的一张图,它不需要反馈道路边界在哪,具体入口位置在哪,因为我们具备自己的实时感知能力,只需要自己去判断车道线在哪就好了。
例如,当车辆左转弯,转过去之后是否有道路连接,左转道路与后续直行道路是否有拓扑关系,这个关系比「确定道路边界在哪」更重要。
这种智能驾驶需要了解的信息,我觉得只做地图的人可能会了解得少一点。
Q:可否理解为,BEV解决的其实是单车单点的问题,但是地图有定位,二者相辅相成?
郎咸朋:之前大家想用规则式的、写得特别清楚的方式去做智能驾驶,所以才有了高精地图。
但现在有越来越多的人理解到:要想最终实现自动驾驶,要从人工智能角度来解。我们想教会系统像人一样思考和开车:你开车的时候也并不是要把整个中国地图全装到脑子里,才会开这辆车,而是边开边判断。
其实在做高精地图的时候,还有一个细节:图商希望能绘制出智能驾驶的规划路径,就是智能驾驶知道该怎么开,只要沿着地图上画的线开就好了。
但是哪有那么容易的事,路上有各种各样的复杂交通参与者,尤其在城市场景里面,这种思路是错误的。
Q:目前大家说不依赖高精地图的城市NOA,是真的一下把高精地图丢开,还是逐步将其降权?
郎咸朋:我们也看到了不依赖地图或者重感知、轻地图的说法,其中有几种方案:大家在高精地图和非高精地图之间,或者导航地图和非高精地图之间制作地图,叫HD Map-或者叫SD Map+
HD Map-,其实还是用了高精地图,只不过是少用了几个元素而已;而SD  Map+就是在导航地图的基础上,增加了一点匹配智能驾驶的元素。
大家都说轻地图,要看轻的是什么,是从高精地图上做简化,还是从SD Map上做加法?这是感知区别,我比较倾向于后者。
Q:刚才提到的道路拓扑关系,现在在理想的城市NOA的技术栈里面是由谁来负责?
郎咸朋:这种拓扑关系在国内还是由图商负责。我们与高德也会展开一些讨论和合作,高德会发布OEM图层的逻辑,方便在合作时将智能驾驶特征相关的信息在OEM里面进行体现。
Q:目前在城市NOA,理想的技术栈里面,道路的连接关系是怎么获得的?
郎咸朋:实际上关于拓扑关系,我们有自己的生产方式。
举一个红绿灯路口的例子:在实车体验时可以发现,位于路口时会有一个小的神经网络去做端到端的训练——给我一张图,我就告诉你这里该转向还是直行,而不是说根据红绿灯与道路的关联,再根据道路拓扑做判断,这还是有本质区别的。
关于大模型的潜能与趋势
Q:关于大模型算法,据说新势力第一梯队的表现不是理想,您怎样看待这个问题?
郎咸朋:这是低估我们了。如果不是以大模型算法训练为前提,我们不可能有那么多训练里程。从一开始,理想就将智能驾驶当成长期AI的问题对待。
在车展现场公布训练里程时,最早的是2019年的数据。也就是说,从那时起我们就已开始了算法训练。
在做第一代产品时,大家用的都是供应商的方案,那时理想就已经开始做训练里程和算法的积累。在2021年,理想有了AD1.0,那是我们第一次全栈自研,已经积累了1亿多里程的训练里程。
到了AD2.0,也就是去年,我们是全球第一个交付Orin X芯片的高速NOA,这样的速度都是源于训练里程的积累。
理想一直坚持认为,对于所谓的「自动驾驶」,要看成人工智能问题,那么关键点就是三要素:算法、算力、数据。我们认为最终竞争的决胜点是数据,是拥有多少训练里程。
建立这个思路之后,大家就不难理解:为什么要标配AD?因为只有标配才能有最大规模的量,而且训练里程中的样本种类也丰富。之所以BEV网络的训练迭代速度会非常快,其实也是源于数据。现在我们有4亿公里的训练里程,而且都是挖掘出来的真正有用的数据。
还有一点,就是总量大不大,也就是产品销量也必须要高,这两点相乘才是最终获取到的训练里程规模。
Q:对于端到端的基础战略,理想是怎么看的?你们对AI和神经网络的应用会到什么程度?
郎咸朋:端到端有可能是根据一张图就能出结果,但也有可能是局部的端到端。随着算力的增大,确实大家的想象空间会变大。
原来因为算力不足,必须把感知、决策、规划和控制分开做,而现在算力高了,于是可以尝试将一些东西合在一起做端到端。我们会保持探索这一方向,但对于现在的产品而言,我们还是要用自己的大模型确保感知、BEV等。
在规控上,理想主要有两方面的考虑:一是控制结果要确保安全,这可以以规则去做,最终规控是Rule-Based和Neural-Based的结合,而不是完全Rule-Based的东西,因为我们一定要把智能驾驶以体验作为驱动。
第二点考虑,是控制结果要与人类驾驶体验吻合。基于此,我们的想法是用小的神经网络去做。
Q:有人说GPT范式看起来是人工智能的边界,它会否改写智能驾驶的基础范式?例如拉一个很大的模型,基于这个模型做出很有常识的东西,然后把它拿来适应驾驶任务。
郎咸朋:目前看来,这是一个合理的趋势。GPT最大的好处是可以用大量的弱标注或者粗标注的样本,来获取一定的基础能力;然后再用精标的小数据去做调整,在某些任务上得到更好的结果,我们现在也在这么做。
举一个例子,比如数学考试,肯定是先掌握各种各样的数学知识,来补充基础素质。之后在临考前,做一下历年真题,掌握解题技巧;最终在考试时,分数就可能会比较好。但之前因为没有大模型这种思路,大家就是拼命刷题、精标数据。这样万一题型有改变,那考试成绩就会变得很差。这是GPT范式和非GPT范式的区别,我认为前者是有一定合理性的。
Q:您是如何看待特斯拉的Dojo,还有友商小鹏的「扶摇」这种大型的用于数据训练的机型?
郎咸朋:其实Dojo和扶摇都是很好的训练集群,但我理解它们只是算力底座或算力基建,上面搭载的是整套虚拟闭环和数据闭环。
特斯拉这套系统最强大的是车端数据的采集和训练,是一个非常高效迭代的闭环,小鹏的扶摇可能只是一个训练集群,但搭载的数据闭环是否效率很高,他们没有讲过,我们也不得而知。
Q:理想现在认为自己的硬件,到2025年这段时间,对于应用需要的感知和计算能力是否能够满足?
赵哲伦:理想最早使用的是单模摄像头+单毫米波雷达,再到后来的环视摄像头。目前从L系列来说,无论是Pro还是Max都具备周视相机和大算力的芯片,这点已经带给开发很大的自由度。
至于是否能够支持到2025年,目前看来肯定是可以的。
Q:刚才提到了,原来咱们跑CNN,需要的是带宽密集型芯片;现在跑Transformer,需要的是算力密集型芯片,我想向您确认一下,这种说法是否准确?
郎咸朋:带宽密集型还是算力密集型,与硬件本身的设计是强相关的。英伟达在设计芯片的时候,其实还没有Transformer,但现在它也做了很多相关的优化补丁。
我们与英伟达之间的互动其实非常多,我们提了很多意见和建议,现在反馈得到的优化也很显著。在它下一代的芯片里面,也会更好地解决硬件加速和优化的问题。
关于机器智行
机器智行为机器之心推出的智慧出行垂直媒体,关注自动驾驶、新能源、芯片、软件、汽车制造和智能交通等方向的前沿研究与技术应用,透过技术以洞察产品、公司和行业,帮助汽车领域专业从业者和相关用户了解技术发展与产业趋势。


相关阅读

  • 浐灞最新旅游地图,快收藏!

  • 玩转·浐灞GO GO GO 又是一年旅游时可去哪玩,却犯了愁……别慌~“遇见新浐灞”旅游手绘地图整合区域文旅资源景区、住宿、交通、美食等“一站式备齐”一张地图畅游浐灞~跟着
  • ​高精地图生成技术大揭秘

  • 点击下方卡片,关注“新机器视觉”公众号重磅干货,第一时间送达本文转载自自动驾驶与AI背景目前学术界和工业界(尤其自动驾驶公司)均开始研究HD地图生成,也有一些公开的学术数据集
  • ​注意!乘坐地铁超时会收取超时费

  • 近日,深圳一市民在乘坐地铁时因在站内停留太久而被收取了15元的“超时费”,引发网热议。不少市民好奇,哈尔滨地铁是否也存在这种情况?对此,记者在哈尔滨地铁集团了解到,哈尔滨地铁
  • 注意!乘坐地铁超时会收取“超时费”

  • 近日,深圳一市民在乘坐地铁时因在站内停留太久而被收取了15元的“超时费”,引发网友热议。不少市民好奇,哈尔滨地铁是否收取“超时费”?对此,记者在哈尔滨地铁集团了解到,哈尔滨地
  • 邵大,我不会PS,咋做高级的PPT地图?

  • 点击 预约/观看 ,进入今晚专题直播课 直播主题:职场PPT设计改稿思路 直播福利:免费抽奖《PPT设计思维》我希望你注意,给客户看的PPT,千万别随便用百度找的地图了!这样的地图素
  • 跟着宝藏游江苏!“五一”出行45家博物馆推荐

  • 南朝竹林七贤与荣启期画像砖、良渚十二节人面纹玉琮、春秋吴王夫差剑、西汉《神乌傅》竹简、战国木雕鼓车、新石器时代雄性麋鹿骨架亚化石……文物里的江苏蕴藏着怎样的悠久
  • 如果失去理想,房地产会怎么样?

  • “人类失去联想,世界将会怎样?”知乎上有人评论联想,二十多年前,这一句天问般的广告飘荡在电视银屏,广大消费者就因为这句广告语,对【联想】的认知再上新层次。联想集团也因此抢占
  • 坡客理想森活2.0 带您感受有趣人类的五一假期

  • 有趣人类的五一假期是什么样?一年前刷爆社交平台的“坡客—理想森活节”以劲爆流量回答了这个问题。今年五一,2.0版本的理想森活全新升级。4月29日至5月3日每天10:30—21:30,
  • 北京自动驾驶测试里程领跑全国

  •   昨天,《北京市自动驾驶车辆道路测试报告(2022年)》对外发布。报告显示,截至去年底,北京载人试运营测试里程累计超过1400万公里,为自动驾驶在实操层面提供了高价值的参考借鉴经

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四
  • 美国对华2000亿关税清单,到底影响有多大?

  • 1 今天A股大跌,上证最大跌幅超过2%。直接导火索是美国证实计划对华2000亿美元产品加征25%关税。 听起来,2000亿美元数目巨大,我们来算笔账。 2000亿美元,按现在人民币汇率

最新文章

  • 可以多交一份医保,享受双重保障吗?

  • 咱们平时生活难免遇到个头疼脑热这个时候,去医院就诊一般都会用到医保很多朋友会说那多交一份医保会不会就是多一份保障呢达咩!重复参保不能重复享受医保待遇甚至是一种违规行
  • 22890元!你达标了吗?

  • 近日,市统计局公布了《2023年一季度杭州经济运行情况》居民人均可支配收入新鲜出炉!赶紧来看一下看看你被平均了吗?2023年一季度杭州居民人均可支配收入一季度,全市居民人均可支