当前,辅助驾驶技术正以前所未有的速度发展,尤其在高速公路等结构化场景下表现卓越。然而,当车辆驶入错综复杂的城市街道,其能力便如同新手司机般捉襟见肘,频繁暴露出局限性。这种现象的根源在于,此前主流的“端到端”AI驾驶模型,其核心是基于模仿学习,类似人类司机经过大量训练后形成的条件反射,能学会“怎么做”,却难以理解“为什么”。
这种模仿学习,尽管在短期内能够显著提升辅助驾驶的平均接管里程,例如理想汽车在七个月内将其从12公里提升至120公里,但这仍无法突破“应激反应”的本质。当面对前所未见的复杂街角、突发行人或多变路口时,缺乏真正“思考”能力的系统便会陷入困境。整个行业,似乎都站在了这一模仿学习的瓶颈前。
VLA大模型:智能驾驶的全新突破
面对瓶颈,行业正将目光投向一个颠覆性的新概念——VLA(视觉-语言-行为)大模型。这一创新技术,正是理想汽车积极探索并率先量产落地的方向。VLA的核心在于,它在传统的“看见”(Vision)和“行动”(Action)之间,巧妙地植入了一个至关重要的“语言”(Language)环节。这意味着车辆不再是单纯地“看到什么就做什么”,而是拥有了一个能够进行“内心戏”思考和推理的“大脑”。
VLA模型赋予车辆通过“语言”来理解和分析复杂场景的能力,例如,它不仅能识别“前方有障碍物”,更能结合全局上下文,推理出“这是一条狭窄的双向车道,对向有来车,我应该减速避让,而不是冒险超车”。这种思考过程,使得汽车的行为决策从一个难以捉摸的黑箱,变得更加透明和可理解,其逻辑也更接近人类的思维模式。从根本上说,VLA将辅助驾驶从简单的行为模仿,提升到了具备理解和推理能力的更高阶智能水平。
理想汽车的VLA理念:从“老司机”到“私人司机”
在VLA的驱动下,理想汽车对智能驾驶的角色定位也发生了深刻转变。传统的自动驾驶系统往往追求成为一个“老司机”,其关注点在于如何将车开得又快又稳。然而,理想汽车赋予VLA的终极目标,是成为一个体贴周到的“私人司机”。这二者的核心差异在于,前者以驾驶者本身为中心,而后者则将乘坐者的舒适与安心放在首位。这一理念的转变,体现了对用户体验的深度洞察。
理想汽车自动驾驶研发高级副总裁郎咸朋博士强调,VLA的首要任务是确保“安全”,其次是“舒适”,效率则排在最后。这意味着,在面对复杂路况时,VLA系统宁愿选择慢行、稳妥,也绝不会采取任何可能让家人感到不安的激进冒险行为。每一次决策,都将用户及其家人的安心作为优先准则。这无疑为智能驾驶带来了更加人性化和温度的维度。
解构VLA大脑:技术与数据炼金术
实现VLA的强大功能,并非一蹴而就。理想汽车的成功,建立在数据、算力、算法和工程能力上的长期积累。特别值得关注的是其创新的训练方式和模型优化策略。
世界模型仿真系统:AI司机的“元宇宙”训练场
理想汽车的VLA模型,其核心训练平台是独创的“世界模型仿真系统”。这可以被形象地理解为一个专为AI司机量身打造的、无限逼真的“元宇宙”驾驶模拟器。在这个虚拟世界中,AI不再仅仅是被动地模仿人类驾驶行为,而是能够通过无数次的“试错”来主动探索和学习。它每天可以在这里“行驶”超过30万公里,经历现实中普通人一生都难以遇到的极端、危险场景(Corner Case)。每一次失败都成为宝贵的经验,推动AI以惊人的速度迭代进化。这种生成式训练方法,极大地提升了模型应对复杂和未知环境的能力,是VLA突破模仿瓶颈的关键。
自研基座模型与边缘端部署优化
理想汽车自研的MindGPT基座模型,在VLA的部署中扮演了关键角色。这款4B模型,虽然规模相对较大,但通过专门针对嵌入式芯片定制的MoE(混合专家)架构,其推理速度反而更快。与业界开源模型相比,这种定制化优化使得VLA在车端能够实现约10Hz的推理帧率,同时保持强大的思考能力。这种工程创新能力,是理想在边缘端部署大型VLA模型的关键优势。
在云端大模型参数量方面,理想汽车的32B模型与友商的72B模型各有千秋。理想认为,模型大小并非唯一标准,更重要的是能否将云端训练出的强大能力,高效、无损地蒸馏并优化部署到车端芯片上,并最终转化为用户的实际价值。理想通过将32B云端模型蒸馏到3.2B的MoE模型,并通过流匹配等技术将Diffusion模型的推理步骤从10步压缩到2步,实现了性能与效率的完美平衡,展现了卓越的工程部署能力。
数据炼金术与反常识处理
高质量的数据是训练“老司机”VLA模型的基石。理想汽车通过“炼金术”般的筛选过程,定义并挑选符合“老司机”标准的“黄金数据”。这包括在云端利用大模型对数据进行精细化清洗,确保数据符合预设的驾驶行为准则。同时,针对大模型可能出现的“幻觉”或反常识指令,理想汽车通过构建大量高质量数据,甚至生成式数据,让模型充分理解驾驶领域的所有知识,并掌握“知其所不知”的能力。结合“超级对齐”技术,确保模型决策符合人类价值观和习惯,避免出现非理性行为。
在感知层面,VLA也带来了显著提升。理想汽车将动态物体纯视觉检测范围从150米扩展至200米,OCC通用物体检测范围从80米扩展至125米。这些基础感知能力的持续进化,为VLA的精准决策提供了更可靠的“眼睛”。
仿真:理想汽车的“杀手锏”
理想汽车敢于大幅减少实车测试,并断言仿真测试效果更佳,其底气来源于高度成熟和可靠的仿真系统。传统实车测试成本高昂且效率低下,更难以完全复现复杂场景和极限情况。理想汽车通过多年的投入,将仿真环境的可靠性和有效性提升到足以媲美实车的水平,目前超级版本和理想i8的VLA版本中90%以上的测试都通过仿真完成。
仿真世界能够高度复刻真实物理世界,其精确度甚至达到99.9%以上。理想通过与海量实车测试数据进行对比验证,并在过去一年中针对仿真测试中的漏洞和缺陷进行了大量的工程与算法优化,例如解决“200米外看不清红绿灯”等具体问题,持续提升仿真一致性。这种高效、可控的仿真训练,是VLA模型实现快速迭代和性能飞跃的“杀手锏”。
在“安全、舒适、效率”这个看似不可能的三角中,理想汽车给出了明确的优先级:安全至上,舒适次之,效率最后。理想的数据显示,辅助驾驶的事故里程远高于人驾,其目标是将辅助驾驶的每两次事故平均里程(MPA)提升至人类驾驶的10倍。舒适度则通过优化每两次人工干预平均里程(MPI)来衡量,旨在减少因急刹、重刹等不佳体验导致的接管。即使走错路,VLA也绝不会通过危险动作纠正,始终在保证安全舒适的前提下追求效率,体现了其“私人司机”的核心价值。
坚信Scaling Law:理想的未来展望
对于VLA的商业化落地,理想汽车认为技术层面L4级别的辅助驾驶将会快速到来,但商业化受制于法律政策等因素。作为国内VLA的“探路者”,理想汽车的核心技术壁垒在于其长期的“数据闭环”积累,拥有12亿公里的真实数据,这为训练世界模型和生成高质量数据提供了坚实基础。新玩家若想入局VLA,将面临数据、算力和工程能力的巨大挑战,难以跳过理想所经历的规则算法和端到端阶段。
在研发VLA过程中,理想汽车最大的挑战在于研发流程的迭代,从数据驱动转向强化学习流程,并快速搭建高效的仿真环境。理想坚持IPD(项目制)组织架构,以精干的团队(约200余人)高效推进项目,效仿特斯拉的敏捷模式。郎咸朋博士强调,对整个行业和辅助驾驶的判断与认知,是避免踩坑的关键。理想很早就将辅助驾驶视为人工智能问题,并坚信“Scaling Law”(规模法则)——即投入更多数据和算力,模型性能总能持续提升。这种信念是推动理想持续创新的内在驱动力。
理想汽车市场调研显示,智能驾驶已成为消费者购车决策中的首选要素之一。尽管当前VLA仍处于技术周期的初期阶段,但其迭代速度有望像端到端一样,在一年内将效果提升10倍。理想汽车表示,随着VLA技术的不断成熟和验证,未来不排除向行业开放赋能的可能性,共同促进行业发展,最终实现自动驾驶的“ChatGPT时刻”。