特斯拉FSD进入中国的首个24小时,国内智驾圈炸开了锅。一时间,主机厂、车主、KOL、KOC扎堆开始直播测试,首轮战罢结果出奇一致,关于吐槽的点,是导航拉胯、闯红灯、不认路、市区超速、接管频次高,甚至是逆行,而好评的点,都在最核心的博弈规控上,效果基本能用丝滑和果断来总结,按照马斯克的隔空解释,由于复杂的不可抗力因素,目前在中国地区上架的FSD V13.2.6,道路数据是从互联网抓取学习训练后的版本(美版最新为V13.2.8),要这么说,FSD在中国刷题一段时间后,很有可能会优化掉这些问题,那,到时候,特斯拉FSD的段位会在华为、理想、小鹏之上吗?6万4的一口价,还会降吗?



需要明确的是,特斯拉首次在中国推送的FSD,只开通了其中一部分功能,因为在2024.45.32.12推送里,更新内容只提到了3个,城市道路Autopilot自动辅助驾驶、车内摄像头、新版本地图。所谓的城市道路Autopilot自动辅助驾驶,其实就是对现有NOA辅助功能做了细节优化,支持掉头、无保护转弯、变道、上下匝道等,车内摄像头则是用来判定驾驶员注意力,就这些功能而言,和眼下国内主流高阶智驾所覆盖的场景基本一致,不过,按照第一波测试的结果来看,问题多出在了对数据处理的准确性上。



有几个典型的案例,比如车辆完成右转后,感知端在夜间能识别道路划线,但也毅然占用了非机动车道,另外,当前方识别到拥堵工况时,果断进行压实线变道超车,这两个反规控基本逻辑的现象,说明了一件事,FSD在感知架构端的数据吸入稳定性,基本没有太大问题,而且漫游掉头甚至会自己规划新路线(有测试显示,T字路口车辆掉头后自行驶入加油站完成换道),从整个规控的逻辑来看,效果明显相对激进,可能有人会反驳这个观点,因为在不少测试过程中,还出现了违反交通道路标识行驶的行为,如果说感知端获取数据的能力不低,为何连最基本、也是最简单的道路标线也没识别出来?



难不成,百度地图在道路网的数据有滞后?这个推理明显不成立,因为特斯拉的这套端到端,底层架构也是不依赖高精地图驱动的,所以从根本来讲,可以看成是系统的学习量还远远不够,尤其是不熟悉道路结构和有中国特色的交通标识,这一点,似乎印证了马斯克在推文中的解释,但还是有一处疑点,既然这次在中国只是解锁了FSD一部分功能,但,从底层架构来看,FSD已经是one model一段式端到端了,理论上是无法进行模块化拆分的,所以很有可能,中国版FSD V13.2.6,是基于上一代V12版本训练后得来的,也不排除是基于已在北美公开推送的V13.2.8早期版本。



无论如何,从这两代版本在海外的实测结果来看,接管频次基本都不会超过两位数,而接管率又是眼下国内市场对高阶智驾水平的标尺,所以这又回到了前面提到的问题上,FSD在国内,感知和算法都不是美版的完全体,因为质量再好的仿真训练数据,也不能完全代替真实数据,所以,倘若特斯拉在有条件允许的范围内,在国内进行大规模测试,以上出现的问题必然会被优化掉,但,全国657座城市,路网结构和环境各不相同,相比北美多以直线或高速路为主的交通网络明显更复杂,特斯拉会花多久实现FSD的完全体呢?毕竟在焕新Model Y交付后,车主即便掏了6万4买FSD,也不支持推送目前版本,所以最后的答案,很有可能是为了尽快匹配新车,训练迭代周期压缩到一个月内。



一个月后再战,FSD会稳赢中国智驾?

之所以说至少一个月,本质还得从FSD的底层技术架构来聊。作为纯视觉智驾方案,依然是以BEV+Transformer为基底的感知网络架构,这也是目前中国智驾在感知端采用的技术,不同的是,增加激光雷达之后,利用实时扫图的能力来构建3D环境数据,超声波雷达、毫米波雷达和摄像头再以辅助提供高精度数据支撑,所以从数据的输入端来比较,不同的就是后者多了一份安全冗余。



由于不配激光雷达,所以在自注意力机制的架构之外,Occupancy道路拓扑占用网络的作用就很重要了,结合视频数据把世界环境分成无数个单元格,再将障碍物坐标匹配到相应的网格中,再通过Transformer或改进的LSTM结构融合历史帧数据,优化动态物体轨迹进行预测,由此来实现类似3D环境的建模,所以FSD在国内大量实测的本质,就是为了训练积卷神经网络中的HydraNets,来提高同时处理车道线检测、障碍物识别、交通信号解析等任务的能力,提升计算效率,覆盖长尾场景。



就目前华为ADS、理想AD MAX、蔚来NOP或小鹏XNGP,基本都需要车端高算力平台来支撑(至少双Orin 508TOPS方案),而特斯拉FSD满足的必要条件,是HW4.0,算力预估不超过500TOPS,就车端算力硬件来看,这部分中美智驾没有拉开太大差距,但,端到端的本质,是通过海量高质量人类驾驶数据,来实现最佳的模仿效果,而海量数据中的难点,是高质量场景的稀缺性,和驾驶数据质量参差不齐,动辄千万Clips的高质量数据回流,也就形成了规模门槛,目前理想最新的V13版本,已经用到了基于1000万Clips的AD训练模型,罕见且较难的corner case基本都能平稳处理,回到FSD来看,短期拿下复杂的中国道路数据,其实并不是没有可能。



答案还在云端高算力架构,特斯拉自研的D1芯片集群,也就是其Dojo超级计算机,和传统的GPU架构相比,Dojo系统的核心就是高带宽和低延迟的训练体系,如今,整套系统的算力已经到了100000PFLOPS,算力储备几乎是去年全球的11%,参考目前比较主流的几家中国智算中心的数据,商汤12000PFLOPS、华为3500PFLOPS、长安1420PFLOPS、吉利810PFLOPS、理想750PFLOPS、毫末670PFLOPS、小鹏600PFLOPS,庞大的算力储备明显能应对超大规模的训练,按照以往更新频率来看,小版本迭代基本在2-4周完成,侧重性能优化和特定场景修复,大版本周期则在6-12个月,像V12切换V13,其中会涉及到架构级别的改进。



至于Grok3,其对FSD的帮助可以看作是间接性的,比如能利用LLM语义解析能力,提升端到端系统对复杂交通规则的理解能力,也能对新场景和人类驾驶员的行为重新建模,来间接缩短FSD迭代周期,所以不出意外,在中国至少刷一个月题,届时FSD的能力上限必然会有明显变化。是否会超过华为小鹏理想,目前能推测到的是,在复杂路口的博弈能力会基本类似,但在包括提前制动或跨层漫游寻车位这些细节体验上,FSD可能还不是中国智驾的对手,当然了,按照端到端训练和学习成正比的关系再推测,在中国展示出断崖式领先,在未来也不是没有可能的。

ad1 webp
ad2 webp
ad1 webp
ad2 webp