车东西(公众号:chedongxi)
作者 | Janson
编辑 | 志豪
车东西12月27日消息,日前,理想对自家智驾系统又进行了一个升级,并加入了新功能——AI推理可视化技术。
据介绍,理想在此版本推出的“AI推理可视化技术”,可以通过独特的交互理念将智驾模型的思考推理过程以视觉形式展现给用户。
这一技术展示了OneModel端到端模型的直出轨迹路线能力,能够让驾驶员提前理解AI的思考和执行过程。
▲AI推理可视化界面
用简单的话来说,这次的升级可以让用户可以清晰地看到车本身的推理过程。
而这,可能也是目前端到端智驾中用户感知最强,消除驾驶者不安感的有效方法。
一、展示车机推理过程 用户可开上帝视角
仔细来看,AI推理可视化技术全面展示端到端(E2E)和视觉语言模型(VLM)在决策过程中所经历的思考过程,涵盖从物理世界输入到最终决策输出的各个环节。
这一技术通过中控屏或副驾驶屏进行展示,具体包括以下几个方面。
▲E2E模型窗口
E2E模型窗口能够在一个窗口中展示自车、其他车辆、道路车道线以及预测的行驶轨迹。
其中,蓝色轨迹线表示模型计算出的正确轨迹,而灰色轨迹线则表示偏移轨迹。
轨迹线的计算结果在10个窗口中展示,每个窗口代表一种模型输出,最终选择“老司机”开法概率最高的轨迹进行操作。
▲注意力系统
其次,注意力系统用于评估实时视频流中的交通参与者行为及环境路况,通过分析其类型、位置、速度和角度等属性,辅助E2E模型计算最佳行驶轨迹。
该系统以热力图的形式展示工作状态,颜色较暖的区域表示对智能驾驶决策影响较大,颜色较冷的区域则表示影响较小。
▲VLM提示模块
最后,VLM展示了其在感知、推理和决策过程中的能力。当识别到影响智能驾驶的环境变化和交通规则时,VLM能及时做出合理的推理决策。
这一过程通过对话形式展现,左侧对话气泡记录交通和环境信息,并保存事件发生时的时间点和摄像头图像,右侧则展示VLM的推理过程和最终决策。
目前,VLM思维链可视化支持多种场景,包括夜晚无灯小路、丁字路口、公交车道、学校路段减速等多种复杂交通环境。
从车东西整体试用的情景来看,三种视觉交互的方式很直观,也有帮助驾驶员理解车机的意图,减少了被理想NOA“激进”驾驶“吓到”的可能。
结语:理想寻求智驾交互新方式
一直以来,高阶智驾一直在新司机不敢用,老司机不爱用的状态中寻找平衡点。
而理想此次在确保通行效率的前提下,通过将新的AI推理过程展示给驾驶员,降低系统和用户之间的信息差来提升用户信任,可谓是一个相对理想有效的尝试。
目前,这样的交互内容还比较简单,但作为一个提升智驾信任感的尝试,无疑是一个好的开端。