InternVL3.5,作为上海人工智能实验室倾力打造并开源的多模态大模型系列,自发布以来便引发了广泛关注。它不仅仅是对现有技术的简单迭代,更是从架构、训练到部署效率上的一次全面升级,旨在推动人工智能从传统的感知理解走向更具实践意义的“理解与行动”新范式。
InternVL3.5的核心优势与技术突破
InternVL3.5系列涵盖了从10亿到2410亿参数的九种不同规模模型,既有满足通用计算需求的稠密模型,也包含针对特定场景优化的专家混合模型(MoE)。这为开发者和研究者提供了极大的灵活性,能够根据实际资源和应用需求选择最合适的模型尺寸。更值得一提的是,InternVL3.5是首个支持GPT-OSS语言模型基座的开源多模态大模型,这为其未来生态拓展奠定了坚实基础。
级联式强化学习(Cascade RL)的创新实践
该模型的核心突破之一在于采用了独特的级联式强化学习(Cascade RL)框架。这一框架通过“离线预热-在线精调”两阶段流程,系统性地提升了模型的推理能力和稳定性。离线阶段,利用混合偏好优化(MPO)算法对模型进行快速预热,构建高质量的初始推理能力。随后,在线阶段则基于GSPO算法,通过模型自身生成的样本进行动态调整,进一步优化输出分布,确保在复杂任务中也能保持出色的推理表现。
动态视觉分辨率路由(ViR)的效率飞跃
在处理高分辨率图像输入时,传统模型往往面临计算量激增的挑战。InternVL3.5引入的动态视觉分辨率路由(ViR)技术巧妙地解决了这一问题。ViR能够为每个图像切片智能地选择压缩率:对于语义信息密集的区域保留高分辨率,而对背景区域则进行自适应压缩,从而在几乎不损失性能的前提下,大幅减少视觉tokens,显著提升了推理速度。例如,一个38B模型在ViR的加持下,吞吐量可提升达4.05倍,这对于实时应用场景意义重大。
解耦部署框架(DvD)的资源优化
为了克服多模态模型部署中视觉编码器与语言模型串行执行导致的资源瓶颈,InternVL3.5提出了创新的解耦部署框架(DvD)。该框架将视觉编码器与语言模型分置于不同的GPU上,并通过BF16精度特征传输和异步流水线设计,实现了视觉计算与语言生成的并行执行。这种并行化策略极大地提升了系统吞吐量,有效缓解了传统部署模式下的资源阻塞问题,使得模型在高并发场景下也能保持高效稳定的运行。
InternVL3.5的卓越能力与应用前景
InternVL3.5的这些技术创新,共同构筑了其在多个关键能力上的领先地位,使其在实际应用中展现出巨大的潜力。
多模态感知与推理的突破性表现
在图像、视频问答等多模态感知任务中,InternVL3.5的旗舰模型InternVL3.5-241B-A28B展现出超越现有开源模型的74.1平均得分,甚至逼近商业模型GPT-5(74.0)。尤其在多学科推理基准MMMU中,它更是以77.7分刷新了开源模型的最高纪录,较前代提升超过5个百分点,彰显了其在处理复杂多学科问题上的强大能力。这预示着InternVL3.5在理解世界方面已经达到了一个新的高度。
文本与智能体能力的全面强化
除了视觉和多模态能力,InternVL3.5在纯文本任务中同样表现出色。在AIME、GPQA及IFEval等多个基准测试中,模型取得了85.3的均分,位居开源前列。更令人兴奋的是,InternVL3.5强化了GUI智能体能力,可在ScreenSpot GUI定位任务中以92.9分超越主流开源模型,这意味着它能够实现更智能、更高效的跨平台自动化操作。此外,其具身空间推理能力也得到了显著增强,可以泛化到全新的复杂具身场景,支持如长程物体抓取等精确操作,推动AI从虚拟交互走向物理世界。
矢量图形处理的专业应用
在专业领域,InternVL3.5在SGP-Bench以70.7分刷新了开源纪录,展示出强大的矢量图形处理能力。这项能力使其能够有效应用于网页图形生成、工程图纸解析等专业场景,极大提升了相关领域的设计效率和自动化水平。
广泛的行业应用场景
InternVL3.5的强大能力使其在多个行业都拥有广阔的应用前景:
- 办公自动化:借助GUI智能体,实现Excel数据录入、PPT设计排版、邮件发送等复杂办公流程的自动化,显著提升工作效率。
- 智能家居控制:通过具身空间推理,赋能机器人更精准地理解家庭环境,完成物品定位、路径规划和物理交互,如智能清洁机器人可根据环境自主规划清洁路径。
- 教育辅导:在多模态推理和文本能力的支撑下,为学生提供个性化学习辅导,解答数学、物理等学科的复杂问题,甚至进行逻辑推理训练。
- 内容创作:利用通用多模态感知能力,自动生成图像描述、视频字幕,甚至辅助创意构思,帮助创作者快速生产高质量内容。
- 网页设计与图形生成:利用矢量图形处理能力,根据用户指令生成或编辑SVG矢量图形,提升网页设计、图标制作的效率和个性化程度。
展望:多模态AI的未来趋势
InternVL3.5的发布,无疑为多模态大模型的发展树立了新的里程碑。它不仅在技术层面实现了多项创新,更重要的是,它为人工智能从“理解”走向“行动”提供了坚实的基石。随着技术的不断演进,我们可以预见,未来的多模态AI将不再仅仅是信息的处理者,更是智能世界的构建者和执行者,将深刻改变我们的工作方式和生活体验。InternVL3.5所展现出的全量级模型优化与多模态协同推理,正在加速这一愿景的实现,引领我们进入一个更智能、更高效的AI新时代。