9月18日,英国自动驾驶技术公司Wayve透露,英伟达已签署意向书,拟在该公司下一轮融资中投资5亿美元。Wayve表示:“像英伟达这样的全球科技领军者持续提供支持,凸显了其对我们‘自动驾驶2.0’技术路线的信心。该路线专注于打造具身智能,并有潜力改变未来的出行方式。”
无独有偶,日产汽车在9月22日表示,已开始测试采用Wayve技术的新一代驾驶辅助系统ProPilot,并计划于2027财年在日本推出该系统。日产汽车表示,其最新一代辅助驾驶技术将达到与特斯拉FSD(全自动驾驶)系统同等的技术水平。
Wayve独辟蹊径?
Wayve成立于2017年,总部位于英国伦敦。去年,其在软银集团领投、英伟达支持下筹集了逾10亿美元资金。网约车平台优步(Uber)对该公司进行了单独投资。
与依赖高精度数字地图和软件的传统自动驾驶系统不同,Wayve采用机器学习技术,通过安装在车辆上的摄像头传感器,从交通模式和驾驶员行为中自主学习。当Waymo、Cruise还在堆硬件(激光雷达、毫米波雷达)、画地图(厘米级高精地图)、拆模块(感知、预测、规划分开做)时,Wayve选择了一条“叛逆”的路:让AI像人类一样学开车。
日产于今年4月宣布与Wayve达成合作,这是大型车企首次将Wayve的人工智能技术整合到量产车中。辅助驾驶与自动驾驶技术在全球大多数地区都面临监管壁垒,而且日本市场的法规限制尤为严格。根据该国现行法律体系,所有车辆在现阶段都必须保持人类驾驶员持续监管。不过,日本面临独特的人口结构问题,人口老龄化及人口萎缩导致出租车司机短缺,这使得驾驶辅助技术在该国具有实用价值。因此,日产计划于2027年推出自动驾驶车辆共享出行服务。今年早些时候,丰田汽车已与Waymo开展合作,探索自动驾驶软件领域的新机会。
全球多数车企已在自动驾驶领域投入数十亿美元资金,但实现L5级(完全自动驾驶)的技术突破仍然前路漫漫。尽管如此,日产仍然保持积极态度。此前,日产相关人士在东京举行的原型车试驾活动中表示:“车辆搭载的自动驾驶系统的环境感知能力已接近人类水平。我相信这项技术将改变人们的生活。”
2017年,剑桥大学博士亚历克斯·肯德尔在自家车库创立Wayve时,提出了一个疯狂的想法:“为什么自动驾驶非要靠人工写规则?人类学开车时,没人会背‘遇到红灯要停车’‘转弯要打转向灯’等条款,都是看别人开,自己试,慢慢就会了。AI也该这样。”这个想法在当时被视为“天方夜谭”。2017年的自动驾驶行业,主流路线是Waymo的“模块化架构”:把驾驶任务拆分成“感知-预测-规划-控制”,每一个环节都由工程师手动设计算法。就像教新手司机开车时,教练一条一条地列规则,这种模式被Wayve称为“AV1.0”。
但肯德尔认为,AV1.0有一个致命缺陷:规则永远写不完。现实中的驾驶场景千变万化,人工设计的规则根本无法应对所有“意外”。于是,Wayve提出“AV2.0”:用“具身人工智能”(Embodied AI)和“端到端深度学习”重构自动驾驶,让AI通过“身体”(也就是汽车)与环境互动来学习。Wayve的AI系统直接接收摄像头的原始数据(就像人类的“眼睛”),然后输出方向盘角度、油门和刹车力度(就像人类的“手脚”),过程中没有任何人工规则,全靠AI自己“悟”——这就是“端到端学习”。
破解自动驾驶的三大“死结”
端到端模型的优势显而易见:泛化能力强。传统AV1.0在A城市训练的模型,到B城市可能因为道路标识、交通规则不同而“水土不服”;而Wayve的AI就像人类司机,到陌生城市转两圈,看看当地人怎么开车,很快就能适应。但是,这种“黑箱”模式也有硬伤:AI为什么这么决策?出了事故谁负责?数据从哪儿来?Wayve用三个“撒手锏”给出了答案。
第一个死结:数据不足?用“虚拟世界”造数据。Wayve直接“造”了一个“驾驶元宇宙”——GAIA-2世界模型。GAIA-2就像一个超逼真的驾驶模拟器,能根据文本描述生成任何场景。Wayve用人造数据训练AI,相当于给AI请了一位“魔鬼教练”,专门练习“高难度动作”。更狠的是,GAIA-2还能“修改现实”。比如,在一段真实路测视频中,原本没有突发状况,GAIA-2可以“P”进去一名横穿马路的行人,让AI在虚拟环境中“复盘”:“如果当时遇到这种情况,你会怎么处理?”这种“数据增强”能力,让Wayve不用跑百万公里,就能获得比传统公司更丰富的训练素材。
第二个死结:地图依赖?让AI“实时认路”。Wayve AI直接用摄像头看路,实时判断自己在哪儿、该怎么走。2024年,Wayve在伦敦、纽约、东京的测试中验证了这一点:把一辆未安装高精地图的测试车开到陌生城市,AI通过摄像头观察道路标识(“靠左行驶”“限速50”)、交通信号灯,当天就能在市中心安全行驶。
第三个死结:“黑箱”难解释?让AI“说人话”。“AI为什么突然刹车?”这个问题曾让端到端模型被骂“不安全”。2023年,Wayve推出LINGO-2模型,第一次让自动驾驶AI“开口解释”自己的决策。当AI输出“刹车”指令时,LINGO-2会同步生成文字:“因为检测到前方100m处有行人横穿马路,并且当前车速为60km/h,刹车距离需要80m。”这背后是“多模态学习”技术:LINGO-2用视觉数据(摄像头画面)和语言数据(人类驾驶员解说)一起训练,既能“看路”,又能“说话”。(凯丽)