智能驾驶无疑是一个热衷发明新词的行业,前年流行的是“Transfomer+BEV”,去年爆火的是“大模型”“无图”,今年轮到了“端到端”。
无论是站在台前的“蔚小理华”,还是身居幕后的元戎启行、Momenta、商汤绝影、地平线,今年都在力推智能驾驶的端到端方案,希望在如火如荼的高阶智驾竞赛中掌握更强大的技术武器。
为何纷纷端到端?
国内智驾行业为何在2024年集体喊出了“端到端”?
一个直观的回答是,因为特斯拉就这么干了。去年年初,马斯克在推特上透露,特斯拉已经开启端到端自动驾驶方案开发。去年8月,马斯克首次直播亲自测试FSD V12,系统呈现出的类人驾驶效果引发热议:自动驾驶看起来真的有希望了(尽管中途接管了一次)。
但是,更接近现实情况的答案是,端到端是诸多企业进行大量实践、试错后,逐渐认同的一种方法。或者说,如果智能驾驶的技术问题主要是一个AI问题,那么端到端就是一个通用解。
端到端并不是一个全新的概念,在人工智能领域,它是一种普遍使用的方法。比如,在各种AI翻译、语音转文字应用中,基本使用端到端:原始数据被送进一张神经网络,经过一系列运算后,直接给出最终结果。
在智能驾驶领域,行业对端到端的探索也不鲜见。比如,英伟达、Waymo都组建过团队进行预研,美国的初创公司Comma.ai和Drive.ai则选择All in端到端。但是,早年间算力、算法性能较弱,基于此开发的神经网络规模与能力有限,自动驾驶任务又高度复杂,端到端方案的表现并不好。
因此,在实际量产中,行业在前些年更普遍的做法是分而治之:将智能驾驶的技术栈切成多个模块,每个模块都有独立的算法,众模块前后接力,协作完成智能驾驶任务。目前,市面上大多数L2级及以下的智能驾驶仍然使用这套技术栈,并且运行得不错,因为任务相对简单。但问题在于,当企业的目标是实现高阶智驾乃至自动驾驶时,这种模块化的方法就不够用了,关键原因是,“中间人”太多了。
同样的事情也发生在智驾技术栈中。车企与智驾公司不断整合智驾技术栈原先相对细碎的模块,将其打包成感知预测、决策规划、控制执行三大模块(也有企业将预测拆出,构成四大模块)。
然而,做到这一步,实际上只是让高阶智驾能用,难题依然层出不穷。
在大多数已上市的智驾车型的决策规划模块中,有大量人类工程师手写的if else规则来应对不同场景。在不复杂的场景中,这些规则运行得不错。但是,在高度复杂的场景中,比如在城区智驾时,仅仅依靠if else很难精确地描述并处理场景,规则与规则之间也会冲突。
为了解决这个问题,国内智驾系统开发进度排名靠前的企业都在进行一项工作:在决策规划模块中,逐渐用神经网络替换掉手写规则,依靠数据驱动解决人工无法穷尽的弊端。
比如,华为在北京车展期间发布的ADS 3.0,将原本有不少手写规则的预测决策规划模块替换为一整张PDP神经网络;小鹏在5月推送的天玑系统,也会在相应模块中引入神经网络模型Xplanner。
但做到这一步依然不够好。因为感知神经网络与决策规划神经网络仍然相对独立,并且任务并不相同,两者之间依然存在人工设计的通信接口,有一个信息筛选过程,自然意味着存在信息有损压缩:好比一个乘客负责看路,指挥蒙着眼的司机如何开车。理论上,取消所有“中间人”,让一张庞大的神经网络负责整个驾驶任务,才是充分利用信息的最优解,这就是端到端智能驾驶。
端到端就是打造出这颗AI“大脑”的关键路径,这是智驾行业今年对其前赴后继的根本原因。
到底是哪端到哪端?
略显喜感的是,在这场端到端的热潮中,要么是中文博大精深,要么是一些企业有意为之,尽管不同企业异口同声地在说端到端,他们表达的可能完全不是一个意思。
比如,华为在非智驾领域讲端到端时,表达的是“从客户端来,到客户端去”的流程。
当某些智驾算法供应商在讲感知端到端时,表示的意思其实是“将感知模块原本数张负责不同任务的神经网络整合成了一张”,而不是完全实现了端到端智能驾驶。某些车企在宣传端到端时,实际所做的工作是“把智驾技术栈的模块合并了一些”。
实际上,严格意义上的端到端自动驾驶,指的是传感器数据进入神经网络处理后,直接输出方向盘、油门、刹车等执行器的控制信号。
不过,宽泛一点的定义目前也能获得认可:车辆的控制模块不需要改造成神经网络,只要一张神经网络接管感知与决策规划,能输出正确的行驶轨迹,也可以被叫做端到端。
元戎启行CEO周光对此解释是:相比感知和决策规划,汽车的控制自由度较低,难度不高,传统算法经过长期发展,已经形成非常成熟的解决方案。在传统算法可以精确控制车辆按轨迹行驶的情况下,将其改造为神经网络并无明显收益,反而有可能带来不同车辆的适配问题。
在这两种狭义与广义的端到端之外,一些企业试图将端到端定义为“把感知模块与决策规划模块改造成感知神经网络和决策规划神经网络”。
相比传统的模块化架构,用两张神经网络能在这两个环节各自获得局部最优解,而智驾需要的是全局最优解。
除此之外,还有各种各样的端到端有点像车企的自研榜单,只要定语加得多,哪款车都能成为最畅销车型;同样地,只要定义的范围足够小,任何企业都能掌握某种端到端。
不同企业此前对“无图”,如今对端到端千差万别的理解和运用的区别,反映出他们截然不同的出发点与目的地。有些企业的想法更现实,对端到端的态度是“万一成了呢”,跟进目的主要是避免在智驾技术上落后,从而影响卖车或丢掉客户订单。另一些企业则更笃信真正的端到端,这能帮助一家公司从单纯的智驾供应商成长为AI机器人企业,最终打造物理世界的通用人工智能。
变局将再度掀起
在国内智驾行业中,元戎启行是一个特殊的存在。工程师盛传其智驾技术实力与华为、Momenta等头部选手也能掰掰手腕;但江湖上又不见它的身影,因为还没有一家车企公开称自家车型采用了元戎启行的量产技术方案。
出现这种情况的原因是,除了特斯拉等极少数企业之外,绝大部分智驾公司的资源和注意力是有限的,很难做到既在量产规模上领先,又始终在最先进的技术上保持存在感。
周光在早年率先提出传感器“前融合”方案,公司在2020年敲定了不依赖高精地图的智驾路线,并于去年年初发布。最近5年以来,元戎启行秉持的是“冲刺先进技术优先,随后赋能智驾量产”的节奏。
如果是在没有什么波澜的行业,采用这类战略的企业很有可能会率先出局。但智驾不一样,这个行业的胜负手归根结底是技术,智驾技术的更迭猛烈而迅速,并且越来越快。每一次技术大更新,都是行业格局洗牌的契机。
比如,智驾感知算法在10年前从传统模式识别转向神经网络,让“Mobileye+传统Tier-1”的组合不再强势,一批新兴算法公司和芯片企业崛起。
作为另一次更新力度超过以往的技术迭代,端到端日渐加速推进,正在带来这样一种影响:原本智驾行业呈现出大局初定的景象,车企要么自研团队搭建完毕,要么已经找好了供应商,行业不愿再为量产进度排名靠后的企业开放机会。
但是,端到端延长了窗口期:绑定车企的供应商可能以为自己熬到了淘汰赛,但实际进度是小组赛刚打了前两轮,后面的赛程仍然漫长。
像元戎启行这样掌握端到端方案的后发企业,虽然量产项目不多,但在技术栈上可能离终点更近。不过,即便端到端给元戎启行等企业带来了再“上智驾牌桌”乃至跻身第一梯队的机会,也不意味着战斗就会结束。周光的判断是,端到端可能是智驾传统技术栈的结束,但只是AI 2.0时代的开始。人类司机大概率会在未来很长一段时间内,与智驾系统进行人机共驾,见证一颗AI“大脑”的成长。
这并不意味着人类驾驶员就该长期坐在开启了智驾系统的车里担惊受怕。那些更快让人感觉安心、驾驶拟人的智驾,消费者自然会“用脚投票”。(文章来源:远川汽车组)