7B小模型逆袭!小米MiMo-VL高考数学139分,实力比肩顶尖大模型,它凭什么?

2

高考战场硝烟散尽,AI圈却因“它”沸腾了!

高考战场硝烟散尽,AI圈却因“它”沸腾了!

2025年的高考大幕已经落下,千万学子们也终于可以松一口气。然而,在人工智能的赛道上,一场没有硝烟的“高考”却刚刚掀起了波澜——各大AI大模型纷纷向今年的数学卷发起了挑战。当众多“巨无霸”模型在考场上你追我赶时,一个意想不到的“黑马”横空出世,瞬间引爆了整个AI圈!

它就是来自小米的MiMo-VL模型,一个参数量仅有7B的“小不点”。你没听错,是7B,不是70B,也不是700B。然而,正是这个“小家伙”,在“2025年数学新课标I卷”中,竟然取得了惊人的139分!

这个分数意味着什么?它不仅与阿里旗下参数量高达235B的顶尖大模型Qwen3-235B打成平手,更只比OpenAI的闭源明星模型o3低了一分!这简直就像是一场现代版的“大卫与歌利亚”之战,小米的7B小模型,用实力证明了“小个子”也能爆发出惊人的能量。

这无疑给所有关注AI发展的人,尤其是开发者和研究者们,带来了巨大的震撼和思考:一个如此“轻量级”的模型,是如何在如此复杂的数学推理任务中,取得如此辉煌的成绩?这背后,又隐藏着哪些我们尚未完全理解的AI技术奥秘?今天,我们就一起深入剖析这个令人惊叹的“高考数学学霸”——小米MiMo-VL。

高考数学139分!7B小模型,大舞台上的“逆袭传奇”

高考数学139分!7B小模型,大舞台上的“逆袭传奇”

在机器之心对“2025年数学新课标I卷”的评测中,众多知名大模型齐聚一堂,展开了一场智力较量。虽然Gemini 2.5 Pro以145分位居榜首,Doubao和DeepSeekR1以144分紧随其后,但小米MiMo-VL的出现,无疑是这场“考试”中最具戏剧性的亮点。

1.1 震惊四座的成绩单:139分,不止是数字

MiMo-VL-7B,这个名字在此次高考评测中,注定要被载入史册。它不仅仅是简单地“通过”了高考,而是以139分的高分,达到了一个令人难以置信的高度。更重要的是,它是在与一群“巨头”的较量中,展现出了比肩甚至超越其体量的能力:

  • 比肩巨头: 139分,与目前已知的、参数量远超其百倍的Qwen3-235B模型分数完全相同。这表明在高考数学这一特定且复杂的任务上,MiMo-VL的有效推理能力已经达到了顶级水平。
  • 毫厘之差: 仅仅比OpenAI的明星闭源推理模型o3低了一分。这进一步印证了MiMo-VL在数学推理方面的卓越性能,它已经站在了AI领域的第一梯队。
  • “同门”碾压: 相较于同样是7B参数的多模态大模型Qwen2.5-VL-7B,MiMo-VL竟然整整高出了56分!这不仅仅是领先,更是一种断崖式的优势,凸显了MiMo-VL在模型优化和能力提升上的巨大成功。

这些对比数据清晰地告诉我们,MiMo-VL的139分绝非偶然,它代表着AI小模型在特定领域内实现“超常发挥”的全新可能性。

1.2 考场细节:多模态优势与客观题的“满分表现”

.2 考场细节:多模态优势与客观题的“满分表现”

值得注意的是,本次评测中,MiMo-VL-7B和Qwen2.5-VL-7B是通过上传题目截图的形式进行评测的,这充分考验了它们的多模态(视觉理解)能力。而其他模型则多是通过输入文本(LaTeX格式)进行评测。在没有System Prompt引导、不开启联网搜索的严格条件下,MiMo-VL依旧交出了令人满意的答卷。

让我们来看看MiMo-VL在高考数学试卷各个题型中的具体表现:

  • 单选题: 总分40分,MiMo-VL斩获35分。这表明它在基础概念理解和初步推理方面具备扎实功底。
  • 多选题: 总分18分,MiMo-VL竟然得到了满分!多选题通常比单选题更具迷惑性,需要更全面的考量和判断,MiMo-VL能在此项拿下满分,足见其逻辑严谨性。
  • 填空题: 总分15分,MiMo-VL同样得到了满分!填空题通常要求结果的精确性,这体现了MiMo-VL在计算和结果输出上的高准确度。

单客观题总计73分,MiMo-VL拿下了68分,接近满分,这为它的总分奠定了坚实的基础。

  • 解答题: 总分77分,MiMo-VL取得了71分,位列所有参评模型的第5名,甚至超越了hunyuan-t1-latest和文心X1Turbo。解答题往往涉及复杂的步骤、多样的解题思路和严格的规范书写,71分的高分证明MiMo-VL不仅能给出正确答案,还能展现出较为完整的解题过程和推理逻辑。虽然仍有提升空间,但这对于一个7B模型来说,无疑是巨大的突破。

这份成绩单,不仅仅是数字的堆砌,它生动地描绘了一个“小而强大”的AI模型,如何在高考这一“国民级”智力挑战中,证明了自己的无限潜力。

“小而强大”的秘诀:MiMo-VL 的技术创新之路

小米MiMo-VL的惊人表现并非偶然,它背后是小米在AI大模型领域深耕细作的技术积累和一系列创新突破。从专注于推理的MiMo到多模态升级的MiMo-VL,每一步都凝聚着前沿的AI算法与数据策略。

2.1 源头:专注于推理的XiaomiMiMo

MiMo-VL的成功,首先要从其前身——小米于今年4月30日开源的首个专注于推理的大模型“XiaomiMiMo”说起。这个模型一经推出,便在推理能力上展现出全面提升的态势。

在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)等公开测评集上,仅用7B参数规模的MiMo,就成功超越了OpenAI的闭源推理模型o1-mini,以及阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。这奠定了小米在“小模型、大推理”方向的领先地位。

一个月后,经过持续的RL(Reinforcement Learning,强化学习)训练,新版本模型MiMo-7B-RL-0530的推理与通用能力再次大幅提升。在多个数学代码竞赛中,它已经与最强开源推理模型DeepSeekR1和OpenAI的闭源推理模型o1、o3-mini相差无几。这种通过强化学习不断迭代和优化的策略,是模型能力螺旋式上升的关键。

2.2 进化:MiMo-VL的多模态与超强竞争力

MiMo-VL作为MiMo-7B的后续版本,不仅继承了MiMo-7B强大的纯文本推理能力,更在此基础上实现了多模态能力的飞跃。它能够理解并处理图片、视频和语言的通用问答与理解推理等多个任务,这使其在多模态领域展现出卓越的竞争力。

  • 多模态标杆: 在多模态推理任务上,MiMo-VL仅用7B参数,便在OlympiadBench、MathVision、MathVerse等多个数学竞赛中大幅领先10倍参数大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview。这意味着小米在多模态推理的效率和效果上,达到了世界领先水平。
  • 超越GPT-4o的内部评测: 更加令人震惊的是,MiMo-VL还在GUIGrounding任务上比肩专用模型,并在评估真实用户体验的内部大模型竞技场中,成功超越了GPT-4o,成为开源模型中的第一名。虽然内部评测结果需谨慎看待,但这无疑是MiMo-VL能力的一个强有力证明,表明其在实际应用场景中的用户体验已经达到了顶尖水平。

这种在保持小参数规模的同时,实现多模态能力的全面提升,是MiMo-VL此次高考数学“逆袭”的关键因素之一。高考数学卷中包含图表、几何图形等视觉信息,MiMo-VL的多模态理解能力使其能够更好地“看懂”题目,从而进行准确的推理。

2.3 核心技术揭秘:高质量数据与MORL算法

MiMo-VL-7B之所以能实现全面的视觉感知和强大的推理能力,其技术层面主要得益于两大支柱:高质量的预训练数据和创新的混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL)。

  • 海量与高质量的预训练数据: 小米团队在数据层面投入了巨大精力。他们收集、清洗并合成了总计2.4T tokens的高质量预训练多模态数据。这些数据涵盖了:

    • 图片-文本对: 帮助模型理解图像内容并将其与文字描述关联。
    • 视频-文本对: 赋予模型对动态视频内容的理解能力。
    • GUI操作序列: 这类数据对于GUI Grounding任务至关重要,让模型能够理解用户界面元素及其交互逻辑。 通过分阶段调整不同类型数据的比例,小米团队有效地强化了模型的长程多模态推理能力。这意味着模型不仅能理解单一的图像或文本,还能在复杂的、跨模态的序列任务中保持连贯的推理。
  • 创新的混合在线强化学习(MORL)算法: 单纯的数据堆砌并不能保证模型能力的最大化。小米引入了创新的MORL算法,这是一种将多种反馈信号(如混合文本推理、多模态感知+推理、RLHF等)进行整合的强化学习方法。 通过这种算法,模型在训练过程中能够稳定加速,全方位提升其推理、感知性能和用户体验。在线强化学习的特点是模型在训练过程中能够实时地从环境中获取反馈并进行调整,这使得模型能够更高效地学习和优化其行为策略,最终达到一个更加优异的性能水平。MORL的独特之处在于它能够平衡不同类型的学习信号,确保模型在各个方面都能得到充分的优化,避免偏科现象。

正是这些在数据和算法层面的精细打磨和大胆创新,使得MiMo-VL-7B得以在有限的参数规模下,爆发出令人惊叹的强大能力,成为AI领域“小而强大”的典型代表。

超越高考:MiMo-VL 对AI未来意味着什么?

小米MiMo-VL在高考数学中的卓越表现,不仅仅是一场技术上的胜利,它更对未来的AI发展、教育模式乃至整个社会产生了深远的影响。

3.1 AI教育的潜力:智能辅导与个性化学习的未来

MiMo-VL在高考数学上的高分,无疑为AI在教育领域的应用描绘了更广阔的蓝图。想象一下:

  • 智能辅导老师: 一个能够精准理解数学题目、给出详细解题步骤、甚至能识别手写公式的AI模型,将成为每个学生的专属辅导老师。它能根据学生的薄弱环节提供个性化练习,实时答疑解惑。
  • 考试辅助工具: 虽然目前AI不能直接用于考试,但未来在备考过程中,AI模型可以帮助学生进行模拟测试、分析错题原因,甚至提供不同解题思路的启发。
  • 教育资源普惠化: 强大的AI数学能力,有望打破教育资源不均衡的壁垒,让偏远地区的孩子也能享受到高质量的数学辅导。

MiMo-VL证明了AI在解决复杂、逻辑性强的学科问题上的巨大潜力,这对于推动教育公平和提升教学质量,具有非凡的意义。

3.2 “小模型”的崛起:AI普惠化与低成本部署的新范式

长期以来,AI领域似乎存在着一种“参数越大,能力越强”的共识。然而,MiMo-VL的成功,有力地挑战了这一观念。它证明了通过创新的算法、高质量的数据和精细的训练策略,小参数模型也能爆发出比肩甚至超越巨型模型的强大能力。

“小模型”的崛起意味着什么?

  • 降低部署成本: 大模型的训练和运行需要天文数字般的计算资源,这限制了其广泛应用。而小模型对算力的需求更低,可以在更小的设备上运行,甚至在边缘设备上实现推理,大大降低了AI的部署成本和门槛。
  • 推动AI普惠化: 当AI不再是少数巨头才能玩转的“烧钱游戏”时,更多的企业、开发者乃至个人都能参与到AI的创新和应用中来,从而加速AI技术的普及和渗透。
  • 更灵活的定制化: 小模型更容易进行微调和定制化,以适应特定行业或场景的需求,这为AI在垂直领域的落地提供了更多可能性。

MiMo-VL的成功,无疑为全球AI开发者指明了一条新的道路:在追求模型能力的同时,也要兼顾效率和成本,让AI真正走进千家万户。

3.3 多模态融合趋势:AI理解世界的关键一步

MiMo-VL在高考数学评测中采用截图输入的形式,并取得优异成绩,充分展示了其多模态能力的强大。在真实世界中,信息往往以多种模态(文本、图像、视频、音频等)混合存在。一个能够无缝理解和处理这些不同模态信息的AI,才是真正智能的AI。

MiMo-VL在视觉理解上的突破,以及其在GUIGrounding任务上的出色表现,预示着多模态AI将是未来发展的关键方向。它使得AI能够:

  • 更全面地理解世界: 不仅仅通过文字,也能通过视觉信息来感知和推理,这让AI的“认知”更加接近人类。
  • 实现更自然的人机交互: 用户可以通过语音、手势、图片等多种方式与AI进行交互,而AI也能以更丰富、更直观的方式给出反馈。
  • 赋能更广泛的应用: 从智能驾驶、智能医疗影像分析,到虚拟现实、增强现实,多模态AI将为这些领域带来革命性的变革。

3.4 开源的价值:加速AI社区的创新与发展

小米选择开源MiMo-VL的技术报告、模型权重和评估框架,这一举动对于整个AI社区来说意义非凡。开源意味着:

  • 透明化与可复现性: 其他研究者和开发者可以深入了解模型的内部机制,验证其性能,并在此基础上进行二次开发和创新。
  • 加速技术迭代: 社区的力量是无穷的,开源模型能够吸引全球的开发者共同参与改进和优化,从而加速技术的迭代和进步。
  • 构建开放生态: 小米通过开源,积极构建一个开放、共享的AI生态系统,这有利于推动整个AI产业的健康发展,而非少数巨头垄断。

MiMo-VL的开源,是其“普惠AI”理念的最好体现,它将赋能更多的创新者,共同探索AI的无限可能。

AI新时代的序章,由你开启

小米MiMo-VL在2025年高考数学中的惊艳表现,无疑为人工智能领域注入了一针强心剂。它不仅仅是一个分数上的突破,更是一次关于AI能力边界、模型效率和未来发展方向的深刻探索。

这个7B小模型,用实力证明了“参数规模并非决定一切”,高质量的数据、创新的算法以及持续的强化学习,才是打造“小而强大”AI的真正秘诀。它的多模态能力,预示着AI将以更接近人类的方式理解世界;它的开源精神,则将加速AI技术的普惠化和社区的繁荣。

MiMo-VL的故事,不仅仅是关于一个AI模型如何“考高分”的故事,更是关于人类如何通过智慧和创新,不断推动科技进步,最终让AI真正成为我们生活和工作中的“虚拟协作者”的故事。

高考的硝烟已经散尽,但AI的征途才刚刚开始。小米MiMo-VL的出现,无疑是这个新时代序章中的一个强音,它激励着我们去思考:当AI变得如此高效、如此智能时,我们又将如何利用这份力量,去创造一个更加智能、更加美好的未来?答案,或许就在我们每一个创新者的手中。