InternVL3.5:级联强化学习如何赋能多模态大模型性能突破?

1

上海人工智能实验室近期开源发布的多模态大模型书生·万象InternVL3.5,无疑为当前人工智能领域注入了强大的创新动力。该模型集合了前沿的级联式强化学习(Cascade RL)、动态视觉分辨率路由(ViR)与解耦部署架构(DvD)等核心技术,旨在全面提升多模态AI的推理能力、部署效率及通用性,为全球研究者和开发者提供了强大的工具集。这一系列突破不仅刷新了开源模型的性能纪录,更在多个维度上为AI应用开辟了新的路径。

核心技术突破:级联式强化学习与高效部署架构

InternVL3.5的核心技术之一是其创新的级联式强化学习框架。传统的多模态模型在复杂推理任务上往往受限于单次学习的深度和广度。InternVL3.5通过构建多阶段、层层递进的强化学习过程,使模型能够更精细地捕捉不同模态间的深层关联,并针对性地优化其决策逻辑。这种分阶段优化的策略显著增强了模型在面对多步骤、高难度推理场景时的鲁棒性和准确性,使其在处理复杂问题时展现出更强的逻辑链条构建能力。

为了解决多模态大模型在实际部署中面临的效率瓶颈,InternVL3.5引入了视觉分辨率路由(ViR)与解耦部署框架(DvD)。ViR技术允许模型根据输入图像的复杂度和任务需求,智能地调整视觉处理的分辨率,避免了不必要的计算开销。DvD架构则将模型的不同组件解耦,实现了更灵活、更高效的资源调度和并行处理。例如,38B模型在896分辨率下的单次推理延迟从369ms大幅缩短至91ms,响应速度提升了约四倍,这对于需要实时交互的智能应用至关重要。

InternVL3.5的轻量化版本InternVL3.5-Flash同样令人印象深刻。它在将视觉序列长度减少50%的情况下,依然能保持接近100%的性能水平。这一成就意味着在资源受限的环境下,如边缘设备或移动端应用,InternVL3.5也能提供高性能的多模态AI服务,极大地拓展了其应用场景。这种效率与性能的平衡,是推动AI技术普惠化的关键一步。

卓越的性能表现:刷新多项基准测试记录

在性能评估方面,InternVL3.5表现出令人瞩目的成果。其旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获得了开源模型最高分77.7分,这一成绩不仅超越了同类开源模型,甚至超过了此前业界普遍认为具有领先地位的GPT-5(75.7分)。在多模态通用感知基准MMStar上,该模型取得了77.9分,OCRBench达到了90.7分,同样超越了GPT-5(80.7分)。这些数据清晰地表明,InternVL3.5在理解和处理跨模态信息方面已达到世界顶尖水平。

InternVL3.5性能对比

此外,InternVL3.5在文本推理任务上也展现了卓越的实力。在AIME25和MMLU-Pro基准测试中,分别取得了75.6分和81.3分,全面领先当前主流开源多模态大模型。特别值得一提的是,得益于级联式强化学习框架,整个系列模型的推理性能相比上一代平均提升了16.0分。InternVL3.5-241B-A28B的综合推理性能达到66.9分,超越了上一代模型的54.6分以及Claude-3.7-Sonnet的53.9分,尤其在数学推理和逻辑推理等对精确性要求极高的复杂任务中,其表现尤为突出,体现了模型深层次的认知与分析能力。

智能体核心能力拓展与生态支持

除了通用感知与推理能力的提升,InternVL3.5还在多个新兴智能体核心能力上进行了强化。它显著增强了GUI智能体(图形用户界面智能体)、具身智能体和SVG图形理解与生成等功能。在ScreenSpot GUI定位任务中取得了92.9分,VSI-Bench空间推理达到69.5分,SGP-Bench矢量图理解则达到70.6分,这些成绩均超越了目前主流的开源模型。这些能力的提升意味着InternVL3.5可以在自动化操作、机器人控制和高级图形处理等领域发挥更大作用,加速智能体技术的实际落地。

InternVL3.5的开源策略也体现了上海人工智能实验室致力于推动AI生态发展的决心。该模型提供了从10亿至2410亿参数共九种尺寸的版本,涵盖了稠密模型和专家混合模型(MoE),满足了从轻量级应用到高性能计算的不同资源需求。值得注意的是,它是首个支持GPT-OSS语言模型基座的开源多模态大模型,这为开发者基于现有主流语言模型进行多模态扩展提供了便利。

在部署和训练方面,InternVL3.5也提供了友好的支持。官方提供了使用transformers库运行InternVL3.5-8B的示例代码,使得模型在单张A100GPU上即可高效部署。对于更大规模的模型,如38B版本需要2张A100GPU,235B模型则需要8张A100GPU,这为不同规模的研究和开发提供了明确的硬件指导。同时,魔搭社区官方提供的ms-swift训练部署框架已全面支持InternVL3.5系列模型,用户可以方便地进行自定义数据集微调,进一步提升模型的领域适应性,并将训练好的模型推送到ModelScope平台,促进了模型的共享与复用。

展望未来:InternVL3.5的深远影响

InternVL3.5的发布,不仅仅是技术参数上的提升,更是多模态AI研究范式的一次重要演进。它通过集成创新架构、优化学习机制和提升部署效率,为构建更智能、更高效、更具通用性的人工智能系统奠定了基础。随着其在开源社区的广泛应用,我们有理由期待InternVL3.5将催生出更多革命性的AI应用,深刻影响未来技术发展格局。