智能驾驶的范式革新:VLA如何突破模仿的边界
当下的智能驾驶技术正处于一个关键的十字路口。过去一年中,以“端到端”模式为代表的辅助驾驶方案成为行业主流,它通过模仿大量人类驾驶行为,在高速公路等结构化场景中展现出卓越的性能。然而,一旦车辆驶入复杂的城市街道,其表现便大打折扣,频繁出现接管请求,用户体验大受影响。这种“高速老手,城市新手”的窘境,揭示了“模仿学习”模式的内在瓶颈:它知其然,但不知其所以然。AI司机像一只观看千万遍驾驶视频的“猴子”,能模仿人类动作,却无法真正理解复杂交通的内在逻辑和变化。当面对前所未有的街角、突发行人或多变路口时,缺乏深层“思考”能力的AI便会“宕机”。
行业普遍认识到,突破这一瓶颈,需要引入更高级的智能。理想汽车给出的答案,是VLA(视觉-语言-行为)大模型。这一创新理念在2025年7月底首次在国内量产上车,标志着辅助驾驶领域迈入了全新的阶段。深入分析理想VLA模型,并与核心研发团队的交流,共同揭示了这场智驾变革的核心奥秘。
VLA:从“看与行”到“看、思、行”的演进
如果说传统的“端到端”模式是简单的“看见,然后行动”(Vision-Action),那么VLA模型则在此基础上巧妙地嵌入了一个至关重要的环节——“语言”(Language)。这意味着在感知(Vision)与行动(Action)之间,车辆有了一个能够进行复杂推理和理解的“大脑”。它不再仅仅是被动地模仿驾驶动作,而是能够像人类一样进行“内心戏”的思考:
- 理解上下文:当感知模块识别到“前方有障碍物”时,VLA模型会结合语境理解“这是一条狭窄的双向车道,对向有来车,我应该减速避让,而不是冒险超车”。
- 规划多步行为:它能够将复杂的驾驶任务分解为一系列子目标,并推理出最优的执行路径。
- 解释决策逻辑:由于引入了语言层,AI的决策过程不再是一个难以理解的黑箱,而是变得可解释、可追溯,更接近人类的思维模式。
业内专家强调,VLA并非是“端到端”的简单叠加,而是在其之上引入了更深层次的认知能力。它统一了机器人领域的通用技术框架,并被视为通往L4及更高阶自动驾驶的“必经之路”。这种“思考”能力的加入,使得辅助驾驶系统能够处理更加复杂、多变且充满不确定性的城市交通场景,极大地拓展了其应用边界。
理想的智驾哲学:从“老司机”到“私人司机”
面对拥有了“思考”能力的VLA系统,理想汽车赋予了它一个独特的角色定位:不做追求极致驾驶技巧的“老司机”,而是要做一个体贴周到的“私人司机”。
这二者之间存在本质的区别:
- “老司机”视角:关注的是“我如何把车开得更快、更炫、更高效”,核心是驾驶员本身的技术表现。
- “私人司机”视角:关注的是“如何让乘客坐得更舒服、更安心,抵达目的地”,核心是乘坐者的感受和安全。
因此,在理想VLA的首个量产版本中,“安全”被置于“效率”和“舒适”之前,成为最高优先级。系统在面对复杂路况时,会宁愿选择更为保守、平稳的策略,也绝不会采取任何可能引起乘客不安的激进冒险行为。每一次决策,都以家庭成员的安心感为核心准则。这种以用户为中心的设计理念,体现了理想汽车对家庭用户需求的深刻洞察,也赋予了VLA更深层次的商业价值和社会责任。
构建AI“大脑”的基石:数据、算力与算法的“炼金术”
要实现VLA的强大能力,并非一蹴而就。理想汽车的成功,建立在数据、算力、算法和工程能力上的长期积累。
1. 自研基座模型与算力压榨
理想汽车自研的MindGPT基座模型,在VLA的部署中发挥了关键作用。尽管VLA是4B模型,相比传统模型更大,但其推理速度反而更快,帧率稳定在10Hz左右。这得益于对基座架构的深度定制,特别针对嵌入式芯片优化了MoE(混合专家)架构,使其能够高效地在边缘端算力上运行。
面对友商动辄72B的云端模型,理想的32B模型如何应战?行业观点认为,模型的参数量并非唯一标准,关键在于能否将云端训练出的强大能力,有效蒸馏并部署到车端芯片上,并最终转化为用户的实际价值。理想团队在工程部署能力上的持续深耕,从早期的地平线J3,到Orin,再到Thor芯片,积累了丰富的经验。他们通过魔改CUDA底层、重写PTX指令,甚至将精度从FP16降至FP8(未来规划FP4),在保证性能不降反升的同时,将Thor芯片的算力压榨至极限,从而实现了VLA大模型在车端的轻量化、高效部署。这种对底层技术的精益求精,构筑了理想独特的工程壁垒。
2. “黄金数据”的提炼与“世界模型仿真”
在VLA的训练中,数据是驱动模型进化的核心燃料。理想汽车像“炼金术士”一样,从浩如烟海的数据中筛选并定义出能够训练出“老司机”的“黄金数据”。他们会用云端大模型对数据进行精细检查,确保其符合定义的“老司机”标准,甚至包括对诸如“在望京右转车道遇到违停车是否压实线绕行”这类复杂场景的深度理解和清洗。
更值得一提的是,理想汽车构建了一个被称为“世界模型仿真系统”的强大训练场。你可以将其理解为一个为AI司机量身打造的、无限逼真的“元宇宙”驾驶模拟器。在这个虚拟世界里,AI不再是单纯地模仿,而是通过一次次“试错”(强化学习)去探索和学习。它每天可以在这里“行驶”超过30万公里,经历现实中普通人一生都难以遇到的极端、危险场景(Corner Case)。它会从无数次失败中总结经验,以惊人的速度进化。这种仿真驱动的强化学习模式,极大地提升了训练效率和安全性,也是理想智驾能够快速迭代、实现指数级进步的“杀手锏”。
3. 感知能力的持续进化
即便VLA拥有聪明的“大脑”,也需要敏锐的“眼睛”来获取高质量的感知数据。在VLA模型中,理想对感知能力进行了显著升级,实现了更远、更精细的感知范围。例如,动态物体纯视觉检测范围从150米扩展到200米,OCC(通用物体检测)范围从80米扩展到125米。这些基础感知能力的提升,确保了VLA“大脑”在进行思考和决策时,能够获得足够准确和全面的环境信息。
仿真:加速智驾进化的“倍增器”
理想汽车敢于大幅减少实车测试,并断言仿真测试效果更好,其底气来源于对“世界模型仿真系统”的极度自信和精湛掌握。实车测试成本高昂,且难以完全复现所有极端场景,效率低下。而理想的仿真系统,经过与150多万公里实车测试数据的对比验证,其可靠性和有效性已达到极高水平,准确率超过99.9%。这意味着,与性能相关的测试,几乎都可以通过仿真系统来替代,大大加速了研发和验证周期。
在仿真训练中,AI司机的进化是一个循环交替的强化学习过程。每轮仿真都会根据AI的行为给予“奖励分”(reward),这些分数会反向优化模型参数,再进行新的仿真。这一过程没有固定的时长,直到AI通过了仿真环境中所有的性能指标和安全验证,该场景的训练才算“毕业”。这种高效且安全的训练模式,是理想智驾能实现快速迭代的关键。
未来的展望与挑战:Scaling Law的信仰
当前,智能驾驶技术正在以前所未有的速度发展。理想汽车对VLA的终极价值思考,已从最初的“司机Agent”迭代为“更好的家庭私人司机”。VLA作为底层能力,首先要确保车辆“开得好”,即安全、舒适、安心且持续进步的驾驶体验。在此基础上,未来辅助驾驶将向“移动空间”的思路发展,当车辆能够做到足够安心、安全后,它将能帮助用户处理更多事务,出行体验将发生质的飞跃。
对于辅助驾驶的商业化落地时间表,技术层面的L4级能力进步速度将非常快,但商业化进程仍受法律政策、保险事故赔偿等非技术因素制约。
新玩家入局VLA面临的挑战巨大。理想汽车的核心技术壁垒在于其长期积累的数据闭环能力、世界模型的构建经验以及强大的基础训练和推理算力支撑。没有完整的实车采集数据,就无法有效训练世界模型和生成高质量数据。同时,组织架构的灵活调整和“项目制”的研发模式也确保了团队能够快速适应技术革新。
理想在“摸着石头过河”的过程中,最大的经验是“对整个行业和辅助驾驶的判断与认知”决定了是否会踩坑。他们很早就认识到辅助驾驶是人工智能问题,必须在算法、数据、算力上全面布局,并坚信“Scaling Law”(规模法则)的力量:只要持续投入更多数据和更大的训练时长,模型性能就一定会持续提升。这种对AI力量的深刻信仰,正是理想汽车在智能驾驶赛道上能够持续领先、不断突破的关键。
智能驾驶的“ChatGPT时刻”,或许比我们想象中来得更快。理想汽车的VLA实践,正逐步将这个愿景变为现实。