理想汽车VLA司机大模型：从动物智能到人类智能的跨越

在人工智能技术飞速发展的今天，理想汽车推出了其革命性的VLA（Vision-Language-Action Model）司机大模型，标志着自动驾驶技术从“昆虫动物智能”向“人类智能”的重大进化。理想汽车董事长兼CEO李想在“理想AI Talk第二季”中，深入阐述了VLA司机大模型的作用、训练方法及其对行业的影响。

李想将AI工具分为信息工具、辅助工具和生产工具三个层级。他指出，当前大多数人仅将AI作为信息工具使用，而理想汽车则致力于将AI发展为能够独立完成专业任务的生产工具。VLA司机大模型正是这一愿景的具体实现，它将成为交通领域的专业生产工具，为自动驾驶技术带来质的飞跃。

VLA司机大模型的进化之路经历了三个阶段。初期，理想汽车依赖规则算法和高精地图，类似于“昆虫动物智能”。随后，通过端到端+VLM辅助驾驶技术，实现了接近“哺乳动物智能”的水平。然而，这些技术仍存在局限，难以与人类有效沟通，也无法全面理解物理世界。为此，理想汽车自2024年起开展VLA研究，通过3D和2D视觉的组合，使VLA能够完整地看到物理世界，并具备语言和思维链推理能力，真正实现了“人类智能”的阶段。

VLA司机大模型的训练过程模拟了人类学习驾驶的过程，分为预训练、后训练和强化训练三个环节。预训练阶段，通过大量高清视觉数据、交通相关语料和VL联合数据，训练出云端的VL基座模型。后训练阶段，加入动作数据，使VL基座变为VLA司机大模型。强化训练阶段，通过RLHF和纯强化学习模型，使VLA司机大模型更加安全、舒适，并对齐人类价值观。

除了提升专业能力，VLA司机大模型还解决了安全性和模型黑盒的问题。理想汽车组建了超级对齐团队，确保VLA司机大模型具备职业司机的安全和舒适性。同时，打造了真实、符合物理世界规律的世界模型，破解了AI黑盒难题，提升了解决问题的效率。

理想汽车在VLA司机大模型的研发上取得了显著成果，不仅得益于DeepSeek的开源助力，更在于其扎实的基本功积累。理想汽车坚持自研，通过技术赋能用户价值，实现了让双Orin-X芯片和Thor-U芯片运行同等规模的VLA司机大模型。同时，理想汽车还选择开源自研的汽车操作系统——理想星环OS，回馈社会。

面对AI的发展，李想认为，所有的人性都应被保留，因为人性是文化、生命、性格、能力的特质，也是人类真正的生命力所在。理想汽车将继续以技术创新解决行业无法解决的问题，不断挑战成长的极限，持续为行业和用户创造价值。VLA司机大模型的推出，不仅是理想汽车技术实力的体现，更是自动驾驶技术向“人类智能”迈进的重要里程碑。