随着渗透率快速上升,2025年智能驾驶只讲“端到端”可能不够用了

编者按:

回望2024年,展望2025年,汽车业此刻正站在一个新的节点上:汽车的样子会变,造车的企业会变。

为此,《财经》展望这一行业的关键变革之年,提出并分析2025年的八大悬念,期待与你一起见证并验证这一切,和汽车产业一起寻路未来。

本文是“寻路2025”系列的第5篇,第一篇是《新能源汽车增速遭遇天花板?》,第二篇是《价格战到底要打到什么时候?》,第三篇是《合资品牌能留下几家?》,第四篇是《汽车出海还能维持高增长吗?》……

文|包校千

编辑 |王静仪 施智梁

2025年是不少预言的揭盅之年。

技术创新迎来了跃变。有人预测,智能驾驶将全面进化普及,司机在未来会逐渐消失。

自动驾驶正在加速落地。工信部相关人士曾披露,2024年上半年,中国乘用车L2级及以上自动驾驶的渗透率达55.7%。中国电动汽车百人会副理事长兼秘书长张永伟预计,这一数字到2025年可能会接近65%。

全自动无人驾驶是智能驾驶技术演进的终局。2024年,车企和供应商集体卷入了“端到端”智驾狂热赛,仿佛“端味儿”的浓和淡代表了技术领先与否。相当一部分人认为,这是通往高阶自动驾驶的一条必经之路。

超越人类是智驾价值跃升的拐点。地平线创始人兼CEO余凯认为,高阶智驾本质的比较对象是人类:“比不过人的时候,它就是高科技的玩具;当它有一天表现得比人好的时候,价值立刻就会跳上去。”

不过,仅凭 “传感器数据” 与 “人类驾驶轨迹” 的海量对照,不足以让智驾向更高阶跨越。而“端到端”就是让所有传感器的数据以及动力学或地图信息等,输入到车端模型,然后输出合理的驾驶轨迹。但人类司机的驾驶意图和一些潜移默化的习惯模式,是“端到端”模仿不来的。

最终,一切都指向了智驾安全性的问题上。



靠模仿,当不了老司机

波士顿咨询曾在一份报告中评价,智能驾驶是“自汽车发明以来影响最为深远的技术”。之所以如此重要,不仅在于它解放了驾驶员的双手,更在于能降低交通事故的风险。

虽然该机构指出,智能汽车和Robotaxi未来可以减少90%的道路交通事故,但就目前来说,智驾并非完全如想象中那么可靠。

比如某新势力品牌的辅助驾驶系统,曾错误地将广告牌上的小货车图片识别为障碍物,导致急刹车和后车的追尾;还有某品牌的车主遭遇了智驾系统在事故发生前退出的情况。部分用户对此表示担忧,认为不能完全依赖厂商推出的“智能驾驶”功能。

在“端到端”席卷之下,L2+辅助驾驶技术得到了更快普及。渗透率方面,比亚迪的入局是2025年国内智驾行业最大变量,有望推动L2+级别销量基盘快速从100万辆提升至1000万辆级别,带动L2+渗透率从14%提升到30%,实现翻倍以上增长。



图源:视觉中国

特别是以理想、小鹏为代表的新势力品牌,都推送了“车位到车位”的智驾方案(该方案是指从起点车位到终点车位,智驾系统全程可以激活无断点,包括上下匝道、环岛、停车场闸机等一系列难点场景),让智驾体验更加好用,但小马智行副总裁张宁指出,当监管频次越降越低,越容易让人产生“虚假的安全感”。

要知道,每个智驾系统迭代的版本之间都有不同程度的差异。也许上一个版本在这个路口能顺利通过,下一个版本就回退了。司机在开小差的过程当中,可能就会酿成交通事故。最终牵扯车辆失控后复杂的责任认定问题。

以“车位到车位”功能为例,这一功能虽已具备L3自动驾驶的核心能力,然而车企将其推向市场的过程中,为了避免提及L3后面临监管压力和潜在的责任风险,仍以L2+、L2++等命名方式来强调其智能化水平。这种回避L3的宣传口径,反映了目前技术落地和商业化过程中存在的谨慎态度。

2024年,是头部品牌全量推进“端到端”的一年。年初,特斯拉FSD V12上线,实现了从感知到决策的一体化,成为各路玩家竞相学习的对象。

对于大多数车企和智驾供应商来说,好的智驾方案应该更像一个老司机,因此各家都在借用“端到端”来模仿、学习人类司机是怎么开车的。

基于“端到端”大模型的智驾系统,各个AI模块通过transformer链接,信息传递更加隐秘,减少了信息传输过程中的丢失,具有上限很高的优势,但“端到端”的下限也很低。在常规场景下,它能够从容驾驶,提供更加舒适的驾驶体验,但在非常规场景下,这种从容很可能转成急躁冒进,带来安全风险。

2024年末,理想、华为、小鹏、蔚来、小米、极氪、智己、长安、长城等公司都加入了“端到端”的竞速中。大部分主流车企已实现了无高精度地图全国都能开,并从以规则为主的算法框架,向神经网络模型为主的新架构切换,也就是端到端。

小马智行联合创始人兼CTO(首席技术官)楼天城透露,当前大部分L2系统的MPCI(Miles Per Critical Intervention,指每干预一次行驶的英里数)最高在300公里左右,驾驶员如果不接管很可能发生危险。

以前,智能驾驶的行驶跟车能力通常是从ACC自适应巡航到高速NOA,再到城市NOA,由易到难逐步培养的。现在,AI去掉准则模型后,很难知道它的下限在哪儿。这就导致智驾系统面对非常复杂的场景也有处理应对的能力,但同时很可能连旁边的垃圾桶都识别不到。

比如采用“端到端”的特斯拉FSD V12版本,泛化能力提升了不少,不再严格按照之前的“准则”进行,智驾系统开起来更像老司机了。但出现的问题也不少,比如之前就有撞到一名摩托车手,这种情况在上一个版本是很难出现的。

余承东此前去美国体验FSD时就发现,“路上停着静止不动的白色货车,特斯拉减都不减速直接撞过去,绿色的货车不减速也去撞,可能是识别成白云和树木了,一旦出问题就是车毁人亡。”



端到端2.0如何升级

面对复杂罕见的驾驶场景,“端到端”无法摆脱局限性。2025年,智驾只讲“端到端”可能不够了。

相较而言,“大家开始研究多模态大模型,行业里都在讨论VLM、VLA。”余凯表示,视觉语言多模态大模型(Large Vision-Language Models,LVLM)能很好地与端到端模型互为补充,充当驾驶决策的“大脑”,让智驾“越来越类人”“越来越从感知到认知”。

此前基于大模型的自动驾驶方案,往往将大模型直接作为“端到端”模型,即直接用大模型预测规划轨迹或者控制信号,但是大模型并不擅长预测精准的数值,因此这种方案并不一定是最优解。

为了弥补“端到端”模型鲁棒性差,泛化性弱的问题,VLM(视觉语言模型)、VLA(视觉语言动作模型)、世界模型等概念不断涌现,代表智驾玩家的技术路线和投入重心。

比如理想采用的“端到端+VLM”双系统,官方称VLM具备复杂场景的理解能力、读懂导航地图能力,以及交通规则的理解能力。接下来,VLM还将用于识别交警手势、施工改道等更复杂的场景。



图源:IC

如果说VLM是端到端的1.0版本,那么VLA则是“端到端2.0”的技术方向。二者最大的不同,在于时间层面的推理能力。“前者在7秒钟左右,后者能达到几十秒。”元戎启行CEO周光表示。

元戎启行技术副总裁刘轩提到,之前做泛化测试时,团队遇到过一个特别离谱的路口。直行等红灯,下面竖了一块牌子:保持安全的情况下红灯可以直行。“就算是人类驾驶员,尤其外地人,看到这个路口肯定也懵。这些和驾驶相关的信息,需要世界模型进行理解。”

2024年11月,Waymo推出了基于多模态大语言模型Gemini的EMMA模型,被业内人士称为VLA模型。该模型在多个关键的自动驾驶任务中展现出良好的任务迁移能力,与为每个任务训练单独模型相比,EMMA 在路径预测、物体检测和道路图理解等方面的表现显著提升。

以上,是部分玩家基于“端到端”智驾的探索。李想认为,掌握VLA基础模型能力是在技术上真正实现L4级智能驾驶的基础条件之一。楼天城则认为,通过搭建训练模型的虚拟环境,即 “世界模型”,能确保车辆不再发生由系统错误产生的问题和事故。

余凯在前不久的地平线智驾科技畅想日上感慨:“前几年大家嘴上在喊‘拐点拐点’,实际上大家在找‘卖点’。嘴上说着‘拐了拐了’,心里想其实是‘赶紧卖了赶紧卖了’。”但随着算法、算力和数据三大要素兼备,他认为2025年是智驾“真拐点”。

从2004年美国国防部高等研究计划局(DARPA)组织首届无人驾驶挑战赛,掀起自动驾驶江湖的波澜开始,这一领域在过去20年经历了深度学习技术的大爆发,从而让汽车行业正在经历一场深刻的变革。

但作为一套极其复杂的系统,自动驾驶的技术切换并不立竿见影,挑战难度大到足以让从业者痛苦绝望。楼天城坦言,“这两年别说对外,对内都很难展示进展。但我不断告诉他们,这是正确的,我们应该这么做。”

无独有偶,前华为智能驾驶负责人苏箐,前不久首次以地平线副总裁兼首席架构师的身份亮相。他认为,自动驾驶代表了物理世界与人类交互的第一个半规则、半非规则的场景,蕴含着极高的研究与发展价值。但“全世界最聪明的人花了这么多钱干这件事情,到目前为止还没有一个系统真正达到‘超越人类驾驶水平’的拐点”。

“但是绝望归绝望,干了这么多年还是能看到希望,因为整个内核技术演进了5-6代以后,你会发现整个系统能看到曙光在前面了,整套数据驱动范式起来以后能看到这点,我觉得这是我们能看到的东西。”苏箐感叹。

责编:张生婷

ad1 webp
ad2 webp
ad1 webp
ad2 webp