谁在All in“端到端”自动驾驶？_上海汽车报-20240714期-第10版：他山之石

2024年已过去一半，今年能否成为“端到端”上车元年？面对终局之战，几家新势力代表车企立下“端到端”上线时间表。

小鹏、理想、蔚来的策略，有别于特斯拉提出的借助完全依赖神经网络处理的“端到端”大模型，解决长尾问题（corner case）——神经网络只是其中一个环节。说起来，国内智驾行业论坛聊起来都没人知道特斯拉到底是怎么做到的？英伟达汽车事业部副总裁吴新宙认为，“端到端”正是智驾三部曲的最终曲。

“端到端”量产进行时

2023年8月，特斯拉FSD V12版本问世，成为首家成功量产“端到端”架构的车企。今年2月，特斯拉将基于“端到端”架构的FSD V12版本向部分普通用户推送，启动商业化运营。

FSD V12的流畅性、令人惊艳的体验感，初露锋芒。2024年5月，小鹏宣布“端到端”架构上车。

整体来说，以车企为代表，“端到端”有三大派：整车厂、自动驾驶企业、学术机构。学术界和工业界切入“端到端”大模式甚至早于特斯拉。

车企方面，蔚来、理想、小鹏、小米、极越、智己、广汽、长城、极氪等，成为国内第一批公开行动或表态者。蔚来采取的是渐进式“端到端”大模型技术路线。目前，理想正在做“端到端”架构的封闭开发。小鹏的“端到端”大模型，据说未来能实现2天一次迭代；未来18个月内，智驾能力提升30倍。

除了“蔚小理”，还有几家车企态度比较明确。

去年12月28日，雷军在小米汽车发布会上宣布：“小米汽车首次运用自研的‘端到端’感知决策大模型。”他还称，这是全球首次将“端到端”感知决策大模型应用于量产车。极越CEO夏一平表示，“下一步的研发重点将是‘端到端’大模型。”

智己汽车联席CEO刘涛称，“目前，智己汽车正在全力推动‘端到端’架构应用，创造更像人的智能驾驶体验。”据悉，智己正在和Momenta合作，推动“端到端”智驾大模型量产应用。

广汽研究院也表示，正在探索“端到端”自动驾驶方案，并取得了初步成效。

长城（毫末智行）表示，将对自动驾驶认知决策模型进行持续优化，实现“端到端”自动驾驶。

一些车企采取了比较谨慎的措施，比如极氪。极氪内部认为，在数据量不充分、安全性难以保证的当下，更多将“端到端”技术路线作为预研项目。

整体来说，大部分车企和极氪类似，认可“端到端”的发展趋势，方向非常明确。

二是智驾供应商，已经有多家供应商发出比较坚定的技术转向声音，并有方案正在推出。目前，包括华为、Momenta、元戎启行、商汤绝影在内的头部企业已经公开“端到端”自动驾驶方案在2024-2025年上车的规划。

三是学术界方面，以上海人工智能实验室、跨界合作的华中科技大学（与地平线合作）、南洋理工大学（和英伟达合作），以及剑桥大学工程系团队创办的Wayve等为代表，推出多篇优秀论文。

上海人工智能实验室的自动驾驶全栈可控“端到端”方案UniAD相关研究，获得人工智能顶级会议CVPR（国际计算机视觉与模式识别会议）2023 年最佳论文，是“端到端”架构最受关注的项目之一。实际上，早在几年前，英伟达就已经在使用“端到端”深度学习，并开发出了无人驾驶的Demo系统。“端到端”的出现是相关技术长期积累的结果，但仍处于上车的初级阶段。

应对长尾问题的能力更强，不少车企或许都能实现。但是，背后容易忽视的是“端到端”大模型系统实现所要付出的成本。

“端到端”走向高端还是低端？

“端到端”架构正在分出不同的发展脉络。

在特斯拉FSD V12中，依靠神经网络模型完成的运营效果已经收到不少追捧的声音。

曾备受关注的上海人工智能实验室的自动驾驶全栈可控“端到端”方案 UniAD的提出者李弘扬，在2021年注意到自动驾驶系统开源项目 Openpilot——一个“端到端”的系统设计。相比特斯拉，他惊叹于Openpilot低成本实现的良好效果，这是他开启UniAD研究的一个关键节点。

同样是“端到端”，如果说特斯拉的“端到端”是高“端”，那么与李弘扬相关的这种低成本“端到端”可谓低“端”。这个对比或许有不恰当之处，但是仍然是一个好解释。那么，哪家的“端到端”效果最好？如何用一个简单的指标来衡量“端到端”大模型的有效性？何小鹏说，对于“端到端”大模型的硬指标，最终看接管率。今天在高速公路上行驶如果没有续航里程问题，那就可以做到1000公里接管一次。

如果在城区道路行驶100公里、300公里、500公里接管一次，那体验完全不一样。

可以对比的是，特斯拉应用“端到端”神经网络架构的FSD V12平均接管里程从此前的166英里（约267公里）提升到了333英里（约537公里）。“端到端”的实现，与BEV+Transformer模型关系十分密切。BEV+Transformer模型规模化应用，也是今天“端到端”有可能迅速成为现实的一大原因。

但是，对“端到端”怀疑的声音一直存在。

早在2016年，Momenta创始人曹旭东在回复无人驾驶“端到端”的学习（end-to-end learning）是否靠谱时指出：对于无人驾驶，“端到端”不适合开发实用无人驾驶系统，可以做Demo。然而，大规模商用却非常困难。当时，曹旭东否定“端到端”的原因有以下三点：一是不聪明。“端到端”会产生大量冗余数据和计算。与之对比，如果把整个无人驾驶拆解成感知、地图、决策三个部分，分别独立学习再融合，可以大大减少需要的数据和计算。二是不灵活。在做一些系统调整后，收集数据学习的过程，往往需要推倒重来。三是难理解。相比模块化，对于整体“端到端”学习，一旦出现问题，因为无法对症下药，容易产生黑箱难题。

时隔多年，这些问题直到今天或多或少仍然存在。时至今日，曹旭东对“端到端”的态度完全转变，Momenta 成为最看好“端到端”实现应用的积极派中的一员。

这个案例，正是“端到端”近年来在自动驾驶领域境遇变化的最好实例。

打赢“端到端”战核心靠算力？

刺激2024年2月至年中“端到端”这波话题关注度走高的根源，源于特斯拉FSD 12.0版本开启推送，以及Sora的大火。Sora是基于“端到端”的Transformer实现的。

而它生成视频像素的能力，是解决“端到端”自动驾驶问题的关键。“端到端”自动驾驶训练的核心是视频生成。因此，Sora富有质感的视频，在一定程度上证明“端到端”路线的正确性。

特斯拉CEO马斯克自信地对外宣称：特斯拉拥有世界上最好的现实世界模拟和视频生成能力。

与此同时，他也指出：我们的FSD训练算力不足。实际上，算力难题一直存在。2023年8月，马斯克指出，FSD AI的实现进程是“眼下的限制因素在于训练的算力，而非工程师人力”。

算力的稀缺和昂贵，已经成为制约AI发展的核心因素。发展“端到端”，首先要考虑提升算力的实力。从大模型之战开始，囤算力成为各家行业公司的基本操作。在华为全联接大会2023期间，华为发布昇腾AI计算集群Atlas 900 SuperCluster，并表示：“中国有一半的大模型算力由华为提供。”

即便如此，若特斯拉如期达成最新算力目标，中国的智算中心的算力都将落后。

从10EFLOPS，再到下一步计划的100EFlops，特斯拉正在以5到10倍的增速实现算力扩张。

当特斯拉已经在训练“端到端”大模型时，国内车企及自动驾驶企业才刚起步。

预计到2024年10月，特斯拉的Dojo智算中心总算力将达到 100EFLOPs（10万PFLOPS），相当于约30万块英伟达A100的算力总和。以小鹏“扶摇”自动驾驶智算中心为例，算力可达600PFLOPS。

毫末智行表示，要实现全国都能开，2000-5000块GPU已经足够。

整体来说，尽管和特斯拉存在较大差距，但是中国车企到2024年年底实现算力的倍数级增长，并非不可能，并且能够接近1-2年前的特斯拉。

数据、算力、算法，人工智能发展的三件套中，仅算力一项，就有可能让各大车企或自动驾驶企业拉开距离。但中国车企并不悲观。城市NOA的刺激，让中国车企及智驾供应商拿出各自新方案，同台竞技，决出胜负为时不远。（文章来源：第一电动网）