智能驾驶新范式:理想汽车VLA模型如何引领“私人司机”时代变革?

0

智能驾驶的范式革新:从模仿到思考

当前智能驾驶辅助系统在高速公路上的表现已臻成熟,但在复杂的城市交通环境中,其可靠性与应对突发情况的能力仍显不足。这背后深层的原因在于,早期以“端到端”为代表的AI驾驶模型,其核心是基于大规模模仿学习,本质上如同“猴子开车”:通过观看海量人类驾驶视频,学习在特定情境下的操作,例如转向、制动等。理想汽车正是凭借这种模仿学习,在短时间内将辅助驾驶的平均接管里程从12公里大幅提升至120公里。

然而,模仿学习的局限性在于,它仅限于“怎么做”,却无法理解“为什么”。当面对前所未见的街角、突然出现的行人,或充满不确定性的复杂路口时,“模仿者”的大脑便会陷入困境,因为它缺乏真正意义上的思考与推理能力。这正是整个行业在模仿学习道路上遭遇的瓶颈,而未来的方向,正指向一个全新的概念——VLA(视觉-语言-行为)大模型。

VLA模型的核心突破在于,它在“看见”(Vision)与“行动”(Action)之间,引入了至关重要的“语言”(Language)环节。这意味着汽车不再仅仅是感知并作出反应,而是在感知之后,能够像人类一样进行内部思考、推理和规划。例如,它不仅能识别“前方有障碍物”,更能结合环境信息理解“这是一条狭窄的逆向车道,有来车,我应该减速避让,而非冒险超车”。这种“内心戏”般的思考过程,使得车辆的决策逻辑变得可解释、可理解,更贴近人类驾驶的思维模式,为摆脱“猴子”式的应激反应奠定了基础。

从“老司机”到“私人司机”:理想汽车VLA的价值取向

拥有“大脑”的VLA系统,理想汽车赋予了它一个出人意料却又合乎情理的角色定位:不是成为一名技艺高超的“老司机”,而是致力于成为一名体贴入微的“私人司机”。“老司机”的核心在于如何将车开得熟练高效,侧重驾驶者本身;而“私人司机”则关注如何让乘客坐得更舒适、更安心,以乘坐者的体验为核心。

因此,在理想汽车首个量产的VLA版本中,“安全”被置于“效率”之上。面对复杂的路况,系统宁愿选择稍慢、更稳健的策略,也绝不采取任何可能让家人感到不安的激进操作。每一次决策都以乘员的安全与安心为首要考量,这与家庭用车的场景定位高度契合。这并非一蹴而就,而是理想汽车在数据、算力、算法和工程能力上长期积累的成果,它代表了对用户体验深层次的理解和承诺。

解构VLA大脑:数据炼金术与自研基座模型

要实现VLA的强大能力,背后是数据与算法的深度协同。理想汽车在VLA训练中,对数据进行了精细化处理,强调“老司机数据”的筛选和清洗。通过云端大模型对数据进行严格检查,确保其符合预设的“老司机”标准,例如对特殊违章停车场景的处理,需车辆在保证安全的前提下灵活绕行。对于现实中难以捕捉的“角点案例”(Corner Case)和困难场景,理想汽车则通过强大的生成能力,合成高质量的训练数据,极大地扩展了模型的学习范围。

值得一提的是,理想汽车自研的MindGPT基座模型在VLA部署中扮演了关键角色。这款4B模型虽然参数量相对友商的72B模型有所不同,但其针对嵌入式芯片定制的MoE(混合专家)架构,显著提升了推理速度和效率。即使VLA模型容量更大,也能在边缘端实现约10Hz的推理帧率,这得益于底层CUDA魔改、PTX指令重写等一系列工程优化。这种对芯片的深度定制化优化,使得模型在精度从FP16降至FP8甚至FP4时,性能不降反升,实现了算力的极致压榨。

在语言模型训练中,为避免大模型产生反常识或反人类习惯的指令,理想汽车采取了多重策略。首先是精细化清洗不良数据,提高数据质量;其次是构建并生成大量特定领域数据,让模型对驾驶场景的知识体系理解更到位,甚至能识别自身知识盲区;最后通过“超级对齐”技术,确保模型行为符合人类价值观,例如坚决不跨越对向车道等。

仿真:理想汽车的“杀手锏”与训练加速器

VLA模型的核心训练场是理想汽车自研的“世界模型仿真系统”,一个为AI司机量身打造的、无限逼真的“元宇宙”驾驶模拟器。在这个虚拟世界中,AI不再仅仅是被动模仿,而是通过无数次的“试错”进行主动探索和强化学习。系统每天能够模拟行驶超过30万公里,经历普通人一生都难以遇到的极端或危险场景,并从失败中迅速总结经验,以惊人的速度进化。

理想汽车之所以敢大幅减少实车测试,并断言仿真测试效果更好,其底气在于其仿真系统的高度可靠性。通过与超过150万公里实车测试数据的对比验证,理想的仿真环境在过去一年中针对漏洞和缺陷进行了大量工程与算法优化,使得仿真一致性达到了99.9%以上,几乎可以完全媲美实车测试。这种高效的仿真能力,不仅大幅降低了测试成本,更重要的是极大地提升了测试效率与场景的复现能力。

在强化学习阶段,训练并非一蹴而就。每次仿真都会根据预设的“打分”(reward)来反向调整模型参数,然后模型再回到仿真环境中产生新的行为。这个循环交替的过程,直至模型通过仿真环境中的所有预设指标,才判定该场景的训练完成。这种机制确保了VLA系统从“实习司机”到“老司机”的持续进化,并且其能力提升将呈现指数级增长,而非线性。

技术壁垒与未来展望

智能驾驶的“不可能三角”——安全、舒适、效率,是所有车企面临的挑战。理想汽车的策略是明确优先级:安全第一,舒适第二,效率第三。数据显示,理想汽车辅助驾驶的每两次事故间的平均里程(MPA)远超人类驾驶,目标是达到人类驾驶的10倍。在保障安全的基础上,理想通过优化每两次人工干预间的平均里程(MPI)来提升舒适度,避免急刹、重刹等不佳体验。即使选择绕远路,也绝不会采取危险动作以追求效率,这充分体现了以用户为中心的理念。

对于新的竞争者而言,进入VLA领域面临着难以逾越的挑战。VLA并非孤立存在,它建立在规则算法和端到端阶段的基础上,需要完整的实车数据采集与数据闭环体系。理想汽车拥有12亿公里的真实数据积累,这是训练世界模型和生成高质量合成数据的基石。缺乏这些数据基础,便无法有效训练世界模型,也无法准确生成所需数据。此外,基础训练和推理算力的支撑,以及顶尖的工程部署能力,同样需要大量的资金投入和技术积累,形成了坚实的技术壁垒。

理想汽车内部坚信“规模法则”(Scaling Law),即只要投入更多数据、更大的模型、更长的训练时长,AI总能带来更好的效果。这种信念驱动着团队不断探索技术的边界。VLA模型作为理想汽车智驾的“新引擎”,正处于技术周期的初期阶段,其发展速度有望像端到端一样,在一年内将效果提升十倍。当辅助驾驶的平均接管里程从100公里跃升至1000公里时,一个全新的时代便将开启,自动驾驶的“ChatGPT时刻”或许比我们想象中更快到来。

理想汽车的VLA技术不仅是驾驶体验的革新,更是未来出行空间重塑的起点。当车辆能够提供足够安心、安全的驾驶服务后,它将不再仅仅是交通工具,而是一个可信赖的移动生活空间,能够帮助用户完成更多任务。虽然目前VLA仍处于发展初期,但理想汽车已展现出其前瞻性的技术洞察力与强大的工程实践能力,预示着其在智能驾驶领域的领先地位,并有望推动整个行业的共同进步,甚至在未来考虑将这一核心能力向行业开放,共同促进行业发展与技术成熟。