VLA大模型:如何突破“端到端”瓶颈,重塑智能驾驶未来格局?

0

自动驾驶技术的发展历程犹如一部充满波折的史诗。在过去的几年里,“端到端”方案无疑是行业的主流,它通过模仿人类驾驶行为,在高速等结构化道路上展现出令人瞩目的性能。例如,有数据显示,在短时间内,辅助驾驶的平均接管里程从初期的12公里大幅提升至120公里,这本身是巨大的飞跃。然而,当车辆驶入错综复杂的城市街道,这种基于模仿的学习模式便开始显露其局限性,仿佛一个经验不足的“新手”,需要驾驶员时刻保持警惕,随时准备接管。究其根本,模仿学习如同让一台机器观看千万遍驾驶视频后,习得在特定情境下如何操作方向盘、何时制动,却无法真正理解行为背后的“为什么”。这种“应激式”反应模式,一旦遭遇从未见过的路况,如突然出现的行人、非典型的路口,便可能陷入“宕机”状态,成为行业普遍面临的瓶颈。这不禁引人深思:下一个突破口究竟在哪里?

答案指向了一个更为先进且富有洞察力的概念——视觉-语言-行为(VLA)大模型。如果说传统的“端到端”模式是简单的“看见即行动”(Vision-Action),那么VLA则在“看见”与“行动”之间巧妙地植入了“语言”(Language)这一关键环节。这里的“语言”并非指语音交互,而是指系统内部通过语言模型进行高层次的理解、推理与规划能力。它赋予了自动驾驶系统一个能够进行“内心独白”的“大脑”,使其不仅能识别“前方存在障碍物”,更能结合环境上下文,深度理解“这是一条狭窄的双向车道,对向有来车,我应减速避让而非冒险超车”。这种近似人类思维的决策过程,让自动驾驶系统的行为逻辑不再是一个难以捉摸的“黑箱”,而是变得可解释、可预测,也更贴近人类的驾驶习惯和安全预期。这标志着从单纯的模仿向具备初步“思考”能力的跨越,是迈向更高阶自动驾驶的关键一步。

在VLA理念的引领下,自动驾驶的角色定位也发生了深刻变化。传统的“老司机”思维关注的是如何高效、精准地驾驶车辆,其核心在于驾驶本身的技巧。而VLA的目标,则是成为一名“私人司机”——其核心关注点是乘坐者的舒适与安心。这意味着,在复杂的交通情境下,VLA系统会将“安全”置于“效率”之上。即使面对需要快速决策的场景,它也倾向于选择更为稳妥、保守的策略,宁愿牺牲片刻的速度,也要确保车内乘客的乘车体验是平稳、无忧的。例如,当遇到潜在的风险情境,它不会采取激进的超车或变道动作,而是优先确保家人般的安心乘坐。这一转变体现了对用户需求的深刻洞察,也预示着自动驾驶将从单纯的“驾驶工具”向“移动生活空间”的理念演进。

实现VLA的宏伟愿景并非一蹴而就,它建立在海量数据、强大算力、先进算法以及卓越工程能力长期积累的基础之上。尤其值得一提的是,“世界模型仿真系统”在VLA训练中扮演了核心角色。这并非简单的驾驶模拟器,而是一个为AI司机量身定制、高度逼真的“元宇宙”驾驶训练场。在这个虚拟环境中,AI不再仅限于模仿学习,而是能通过反复的“试错”进行探索和自我优化。系统每天能够“驾驶”超过30万公里,经历现实中普通人一生都难以遇到的极端或危险场景(Corner Case)。它在无数次失败中汲取经验,以惊人的速度完成进化。可以说,仿真系统是AI司机从“实习生”到“老司机”快速成长的加速器,极大地提升了训练效率和安全性。

理想汽车自动驾驶研发高级副总裁 郎咸朋博士

VLA技术虽然脱胎于“端到端”,却并非简单的工程能力叠加,而是深层次的算法创新,核心在于引入了“语言”带来的“思考”维度,从而将机器人通用范式引入驾驶领域。将VLA这类大模型部署于车端边缘计算平台,本身就是一项巨大的工程挑战,必须依赖于高性能计算芯片的支撑。业界关于VLA与“好模型”关系的讨论表明,VLA作为一种模型架构,其最终效果取决于数据质量、算力投入、算法创新及工程部署能力。正如行业专家所强调,若辅助驾驶要迈向L4乃至更高阶能力,融入“语言”的思考路径是其必经之路。虽然多模态大模型尚未迎来真正的“ChatGPT时刻”,但率先将VLA推向量产,是一种积极的探索,旨在通过实际落地验证其价值。当前版本或许存在局限,但只要能为用户带来“更好、更舒适、更安全”的体验,便是成功的开端,后续将通过用户数据迭代和场景丰富,逐步向更强的通用性和泛化性迈进。当平均接管里程从百公里级跃升至千公里级时,一个全新的时代便会开启。

相比端到端,VLA的不同之处是在“看见”(Vision)和“行动”(Action)之间,加入了语言(Language)

技术细节层面,理想汽车的自研基座模型MindGPT在VLA部署中发挥了关键作用。这款4B参数规模的模型,尽管比传统模型更大,但通过专门针对嵌入式芯片定制的混合专家(MoE)架构,实现了更快的推理速度。业界开源模型普遍难以达到这种效率,这体现了在底层优化上的深厚积累。VLA的推理帧率稳定在10Hz左右,这得益于团队在算子调整、底层指令重写等方面的精细化打磨。例如,通过将模型精度从FP16降至FP8,甚至未来尝试FP4,能够在不显著牺牲性能的前提下,大幅提升计算效率,极致压榨芯片算力。这种对底层技术的掌控能力,使得理想汽车在有限算力下实现了大模型的高效部署。

关于云端大模型的参数量选择,业界存在72B与32B孰优孰劣的讨论。实际上,参数量的多少并非唯一评判标准,更重要的是能否将大模型的强大能力有效蒸馏并部署到车端芯片上,并最终转化为用户价值。参数量更大的模型虽然训练资源消耗更多,但也为蒸馏提供了更丰富的潜力。关键在于各家工程师将大模型能力高效迁移到小模型上的工程能力。此外,训练数据的质量至关重要。许多通用大模型依赖互联网数据,容易受到“数据污染”的影响。理想汽车则基于自有的海量驾驶场景数据进行训练,确保模型对驾驶场景的理解更为精准和深入。这种“黄金数据”的筛选和生成过程,如同炼金术士般,将最能训练出“老司机”行为模式的数据提取出来,并通过云端大模型进行严格检查和清洗,有效避免了反常识或反人类习惯的指令生成,并通过“超级对齐”等技术确保行为符合人类价值观。

感知能力作为VLA的“眼睛”,其持续进化至关重要。理想汽车在VLA中对感知能力进行了显著升级,实现了更远、更精细的感知范围。例如,动态物体纯视觉检测范围从150米扩展到200米,通用物体检测范围从80米扩展到125米。这些提升是数据积累、模型优化和推理性能共同作用的结果,为VLA的决策提供了更可靠、更全面的环境信息,有效应对了复杂场景下可能出现的识别挑战。

在算力规划上,自动驾驶技术的演进伴随着算力的指数级增长。从规则算法时代少量用于模型训练的训练卡,到端到端时代训练卡算力增长十倍,再到VLA时代对训练和推理算力的双重需求,都体现了对计算资源的巨大投入。例如,从地平线J3到Orin再到Thor芯片,理想汽车团队在CUDA底层魔改、PTX底层指令重写等方面的工程部署能力一脉相承,使得VLA的推理效率得到质的飞跃。即使在车端部署VLA大模型,也能通过MoE架构的自研基座模型和Flow Matching等压缩技术,实现在效率与性能间的平衡,使得原本需要数十步推理的Diffusion模型仅需两步即可完成。至于自研智驾芯片,其核心优势在于能针对自身算法进行深度优化,提供更高的性价比和效率。目前沿用英伟达Thor芯片,是因为其对新算子的良好支持和充足算力,为VLA的快速迭代提供了灵活空间。但随着算法的锁定和成熟,为追求极致效率和成本,自研芯片将是行业普遍考虑的方向。在不同平台(Orin与Thor)上,理想汽车承诺VLA的推送将“一视同仁”,当前在能力和帧率上均无差异,确保所有用户都能享受到一致的先进体验。

null

面对自动驾驶领域普遍存在的“安全、舒适、效率”不可能三角,理想汽车明确了优先级:安全至上,其次舒适,最后效率。数据显示,理想车主的人驾事故率约为每60万公里一次,而辅助驾驶功能已能将这一数据提升至每350至400万公里一次事故,其目标是将辅助驾驶的MPA(每两次事故间的平均里程)提升至人类驾驶的10倍。在保障绝对安全的前提下,通过优化MPI(每两次人工干预间的平均里程)来提升舒适度,减少因急刹、重刹等不佳体验导致的接管。即使在导航出错时,也绝不会采取危险的纠正动作,而是以安全和舒适为先。

理想汽车在仿真测试上的大胆投入及其效果,成为了其核心“杀手锏”。相比实车测试,仿真测试不仅成本更低、效率更高,还能无限复现极端场景,这是实车测试难以比拟的。通过对150多万公里实车测试数据的验证,理想汽车的仿真环境在过去一年中经过大量工程和算法优化,一致性已达到99.9%以上,足以替代大部分性能相关的实车测试。在仿真训练中,模型的“毕业”标准取决于其能否通过所有预设的评价指标,这是一个循环交替、不断强化的过程。当模型在仿真环境中达到既定标准时,便认为该场景的训练已完成。这项技术为自动驾驶的快速迭代和安全验证提供了坚实底气。

从商业化角度看,VLA模型无疑为更高级别的辅助驾驶开启了新的可能性。尽管目前仍处于技术周期的初期,但其迭代速度有望非常快。商业变现的核心影响因素在于政策法规,尽管从技术角度看L4级辅助驾驶落地或将加速,但保险、事故赔偿等商业考量仍需时间。对于新入局VLA的玩家而言,挑战巨大且难以逾越。首先,VLA需要建立在规则算法和端到端阶段的扎实基础上,没有完整的实车数据闭环,便无法有效训练世界模型和生成高质量数据。其次,庞大的基础训练和推理算力支撑,需要巨大的资金和技术投入。理想汽车能够落地VLA,正是基于其长期积累的12亿公里数据,以及对人工智能问题的深刻理解和快速迭代的研发流程。在研发过程中,最大的挑战在于流程的迭代,从数据驱动转向强化学习,并快速搭建高效的仿真环境。理想汽车的项目制组织架构(IPD)在应对这种变革中展现了显著优势,例如,通过200多人的精干团队,实现了高效的研发与迭代。

在技术探索的道路上,理想汽车坚信“规模法则”(Scaling Law)。这意味着,当持续投入更多高质量数据、提供更大训练时长时,模型总能呈现出更好的效果。这种对AI力量的坚定信仰,促使理想汽车不断突破技术边界。随着智能驾驶在消费者购车决策中的权重日益提升,甚至成为购车首选要素之一,VLA这类核心能力在未来有望向行业开放,以促进整个自动驾驶领域的发展。但前提是,系统需要得到充分验证,且行业伙伴需具备相应的评测方式、仿真环境以及强化学习训练能力。虽然当前VLA仍处于初级阶段,但其发展速度如同端到端一样迅猛,预计一年内效果可提升十倍。展望未来,当VLA技术进一步成熟,它不仅将重塑出行空间,更可能为整个行业带来“ChatGPT时刻”般的变革性影响。