原创|Jaden编辑|Cong
期待已久的特斯拉FSD入华的半只靴子终于落地,尽管有些人认为此次未兑现特斯拉承诺的自动驾驶能力,也引发了资本市场对特斯拉的不满,但在中国的汽车圈尤其是智驾领域,FSD的落地,还是引起了很热烈的讨论。
其大背景是,随着各家车企和供应商技术的不断优化迭代,如今智驾能力、路线和战略的大比拼,已经成为了中国汽车领域的话题焦点。
从2023年特斯拉发布纯视觉智驾方案V12以来,FSD就一直是智能驾驶行业天花板级别的存在。中国车企或供应商,也在不同路线的激烈争论中,渐渐向特斯拉看齐,并且在算力、算法和数据上不断跟进和迭代,试图能够追上FSD的步伐。
但这是一条很难的道路,很重要的原因,是特斯拉通过七百万辆高阶智驾量产车和超10万P算力,叠加它的算法和数据,构筑了与中国车企具有数量级差距的基础设施壁垒,中国车企难以在短时间复制特斯拉的模式。
那中国车企就只能跟着特斯拉的车尾灯?有没有可能像DeepSeek一样,能够另辟蹊径,从而实现换道超车的机会呢?
在2月22日的商汤大模型生产力论坛上,商汤绝影CEO王晓刚发布了行业首个「与世界模型协同交互的端到端自动驾驶路线R-UniAD」,通过构建世界模型生成在线交互的仿真环境,以此进行端到端模型的强化学习训练。
R-UniAD之所以令行业关注,很重要的原因,是它与DeepSeek技术创新思路同归一源,即从模仿学习向强化学习升级演进,从而实现端到端自动驾驶超越人类的驾驶表现,还能让端到端自动驾驶的数据需求降低一个数量级,这在算力和数据等层面都极大降低了车企的门槛。
在上周与车云等媒体的交流中,王晓刚表示,特斯拉FSD目前还是模仿学习的范式,而R-UniAD是强化学习模式,能够不断提升智驾性能上限。
“我相信R-UniAD是可以帮助绝影的车企合作伙伴,在国内的舞台上,换道超车特斯拉FSD。未来走向国际,中国智驾也会更有竞争力。”
01
到底什么是真正的端到端?
作为深度学习方法论在智驾场景的工程化落地,特斯拉的FSD V12方案是端到端架构一个重要的里程碑。它的核心就是通过一个神经网络直接处理摄像头数据并输出驾驶指令,替代传统的模块化分步处理方法。
随后小鹏、华为等都陆续跟进并将此作为高阶智驾的技术方向,「端到端」成为2024年车圈最火的术语之一。不管真端假端,车企都会称自己为真正的「端到端」智驾解决方案。
在此前的分享中,王晓刚曾经提到过行业中的各类端到端解决方案,比如决策层和感知层彼此独立的组合式端到端,这种由感知和决策两个模型组成的 “两段式”架构虽然更容易落地,但两个模型之间传输的信息是人为定义的显性信息,仍然存在信息传递过滤或丢失的问题。
此前商汤绝影推出的UniAD,将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,即感知决策一体化,不需要对感知数据进行抽象和逐级传递,所见即所得,能实现真正的端到端自动驾驶。
当然,一段式端到端的实现不仅很困难,而且也不是万能的,相比此前的模块式智驾系统,端到端的神经网络算法模型,极度依赖海量的真实数据来训练。
这也意味着高阶智驾在开发阶段需要巨大的算力和数据投入,且本质仍是模仿学习,很难突破人类驾驶水平的天花板。目前从各种号称端到端的的落地来看,其实际表现也各不一样。
王晓刚说,DeepSeek为端到端技术的进步提供了新思路。基于纯强化学习的长思维链涌现,打破了数据瓶颈,为自动驾驶带来了突破可能。同时,DeepSeek对于算力的依赖在降低,这也给了端侧的模型很大的机会。
商汤绝影此次推出的R-UniAD正是「多阶段强化学习」端到端自动驾驶技术路线,王晓刚解释说,有了强化学习的自动驾驶,可以用生成仿真环境的世界模型,跟端到端自动驾驶的模型进行新的连接,协同交互,从而产生新的技术路线。
R-UniAD分为三个阶段,首先是依靠冷启动数据通过模仿学习进行云端的端到端自动驾驶大模型训练;
然后基于强化学习,让云端的端到端大模型与世界模型协同交互,持续提升端到端模型的性能;
最后云端大模型通过高效蒸馏的方式,实现高性能端到端自动驾驶小模型的车端部署。还能节省算力、硬件的成本。
王晓刚透露说,这条新技术路线,能够解决原来数据不够和数据质量参差不齐的问题,尤其是在一些复杂场景中,能够更好地挖掘数据的价值,对数据利用率有数十倍的提升,甚至是产生了一些额外的数据。
“它给我们开启了模型下一轮提升的窗口和起点,但这里面可能又有新的关键的要素,就是你怎么去找到这些复杂场景,随着模型和算力的增大,Scaling Law会遇到瓶颈,但现在是通过强化学习打破了这样的瓶颈,进入下一轮演进的循环。”
02
智驾能力决战的分水岭在云端
今年年初,比亚迪高喊全民智驾的口号,全系标配高阶智驾,迅速将高阶智驾拉到10万以下级的水平,让全行业为之哗然。
另一方面,以华为为代表的头部智驾供应商也在攻城略地,合作车企和车型越来越多,颇有赢家通吃的架势。
王晓刚说,比亚迪今年目标500万台,而且全系标配智驾功能。其他各家都在跟进,所以今年智驾市场一定会爆发。绝影会去努力抢占市场份额,首先是要攻下中低算力市场。
在去年年底的AI DAY上,绝影展示了基于不同算力平台打造的全场景高阶智驾和端到端智驾产品体系,包括基于征程 6E 芯片打造,算力 80 TOPS的AD Pro;基于征程 6M 芯片打造,算力 128 TOPS的AD Max;以及采用一段式端到端技术,基于英伟达 Orin / Thor 芯片打造,算力超过 200 TOPS的AD Ultra。
目前绝影已经与广汽、奇瑞和东风汽车等达成战略合作,量产交付也正在推进中。今年3月,商汤绝影和车企合作开发的基于J6M的自动驾驶产品,就能实现量产。R-UniAD也将在今年上海车展期间推出并完成实车部署。
但这样的落地速度,在如今竞争激烈的大环境中,对比头部智驾供应商,绝影还是慢了不少。
王晓刚似乎并不着急,他表示绝影在智驾市场有自己独特路径和思考。在如今量产规模和算力资源的比拼中,单靠车企,尤其是中小型车企,难以独立解决数据量不足、数据开发成本高、数采链路效率低、困难场景构建难等问题。
所以绝影并非只是简单做智舱或智驾模块化的供应商,而是和主机厂深度合作,将自己积累多年的AI大算力装置、云服务、工具链等能力,共享给主机厂,帮助他们做基础设施的建设,避免重复投入,从而提供更高效、更高性价比的交付。
同时,随着智驾研发范式转变为数据驱动,基础设施和云端研发占的比重越来越高,端上相对变得越来越简单。在行业推进量产的路上,从更长期来看,未来智驾的决胜不在车端,不在端到端算法本身,而是在云端。
同样是在去年AI Day上,绝影发布了用于量产智驾的世界模型「开悟」。在商汤的官方介绍中开悟它有几个核心能力,包括真实度高,能够理解真实的世界,准确度好,可控性强,以及泛化性广等等优点。
目前,开悟世界模型已经有1024类的不同的场景,生成千万级别的场景库。
王晓刚透露说,从去年开始,就已经有20%的视频应用在了模型训练中。他希望将来这一数字能超过50%,乃至80%。
眼下,随着R-UniAD的推出,绝影如何去做技术路线的大规模验证,推动智驾技术演进,再往下一个阶段走,更大规模的量产落地就显得尤为关键了。
同时,量产对于绝影的盈亏平衡问题,也至关重要。王晓刚将这一盈亏平衡点设定为80万到100万量级,这对绝影也是不小的挑战。
另一方面,王晓刚认为R-UniAD对整个智驾行业的发展具有重大现实意义。比如FSD入华,王晓刚认为特斯拉还是会面临场景数据的问题,而绝影R-UniAD的新型技术路线,不仅能解决这些问题,还有望超越人类驾驶表现,对FSD实现换道超车。
不过,他也强调,人工智能的发展始终是算法、算力和数据进行螺旋式交替作为技术驱动力,推动技术不断演进。自动驾驶需要一步步逐渐积累,没有所谓的终极解决方案,大家都是踩在前人的肩膀上往前走,技术会不断演进。
“所以说我觉得所谓量产并不是终点,它是一个起点,整个技术还是在不断迭代演进的过程中,也有很多新的机会。”