具身智能新突破:优必选Thinker如何领跑全球人形机器人技术巅峰?

1

具身智能的浪潮正在席卷全球,而人形机器人作为其具象化的载体,其核心“大脑”的进化速度成为衡量技术前沿的重要标尺。优必选公司近日公布的最新研究成果,无疑为这一领域树立了新的标杆。其自主研发的人形机器人Walker的核心智能系统——百亿参数多模态大模型Thinker,在全球三项顶尖AI基准测试中脱颖而出,一举斩获四项世界第一,这不仅是优必选的胜利,更是整个具身智能领域迈向实用化的重要里程碑。

这些测试由微软、谷歌等科技巨头主导发起,吸引了包括英伟达、北京智源研究院、上海AI Lab在内的全球顶尖研究机构与企业参与。Thinker在激烈的竞争中脱颖而出,充分证明了优必选在机器人复杂环境感知、深层语义理解以及长程任务规划等关键技术领域的领先实力。这一成就使得优必选的人形机器人Walker S在具身智能的道路上实现了关键性飞跃,让机器人“看懂”并“理解”真实世界,从而能够自主且智能地完成复杂任务成为现实。

多模态感知与强推理规划:赋能工业场景的未来

在当前智能化转型的背景下,人形机器人的任务规划能力已成为决定其应用前景的关键因素。传统的机器人系统往往依赖于预设的指令集,难以适应高度动态且复杂的实际工作环境。而本次优必选Thinker所参与的三大基准测试,其核心正是全面验证人形机器人在复杂多变环境中,进行多模态感知与高级推理规划的综合能力。

其中,MS COCO detection challenge作为由微软发起的计算机视觉领域权威评测基准,在全球学术界和工业界享有极高声誉,其结果常被用作感知算法性能的重要衡量标准。同时,由谷歌DeepMind和香港大学分别提出的RoboVQA和Egoplan-bench2,则致力于建立机器人第一视角推理与长周期任务规划的公开标准基准测试,聚焦于多模态与长周期任务的规划能力。这些榜单上的竞争者包括北京智源、英伟达的ThinkAct、Cosmos-reason1、GPT-4V以及Qwen2.5-vl等一众行业翘楚。

Thinker在MS COCO detection challenge中排名第一

Thinker在MS COCO detection challenge中并列第一

Thinker在RoboVQA与Egoplan-bench2中排名第一

Thinker此次的卓越表现,离不开优必选自主研发的Thinker架构与训练框架所提供的坚实技术支撑。该系统通过创新性地整合多项关键技术,系统化地提升了人形机器人的感知与推理规划能力,为未来工业场景的规模化应用奠定了坚实的基础。

首先,在精准环境感知方面,优必选构建了自研视觉编码器基座。该基座以ViT作为视觉编码器原型,并结合了Co-DETR检测头。通过在Object 365等海量开源数据上进行通用视觉任务的预训练,并辅以多阶段模态对齐机制,实现了视觉与语言模态的高效融合。最终,在优必选积累的机器人数据集上进行精细微调,显著增强了机器人在工业场景中对物体、障碍物以及操作上下文的识别精度,为复杂环境中稳定可靠的多模态环境感知提供了坚实保障。

Walker S2在工业场景中自主完成上料

其次,为了提供强大的语义理解基础,优必选自研了具有百亿参数的多模态大模型Thinker基座。这一基座实现了视觉-语言-时间的跨域统一表征,使得机器人能够在多元场景中准确捕捉环境细节、深入理解任务指令并进行有效的推理,从而为自动化操作提供了可靠的认知基础。

最后,为了增强长程任务规划的连贯性与可靠性,优必选采用了时序增强算法与强化学习方法。通过大模型蒸馏技术,成功将百亿参数模型的效果浓缩至7B参数模型中,在保持高性能的同时,显著增强了多步骤任务分解与连续决策的能力。这一优化使得模型能够在机器人自身搭载的端侧算力上实时部署,自主拆解复杂流程,有效避免规划中断或逻辑混乱,这在流程严格、环环相扣的工业场景中展现出至关重要的价值,有力保障了生产的连贯性和操作的安全性。

工业场景精调策略:加速人形机器人的产业化落地

当前,工业场景的精细化调优策略正成为推动多模态大模型从实验室走向实际应用的关键驱动力。这种策略为人形机器人在生产线上的稳定、高效部署奠定了技术基础,从而加速其从技术验证阶段迈向规模化实战应用的进程。

优必选创新性地采用了“通用基础能力打造+工业场景精调”的微调策略。该策略首先基于超过200万条视频数据构成的大规模训练集进行模型的预训练,随后,引入优必选在工厂实训中积累的亿级工业数据集进行精细化微调。同时,对工业场景任务规划数据进行严格的清洗与整合,构建了一个高效的多模态大模型学习闭环。通过这一严谨的流程,模型能够迅速学习并掌握工业场景特有的视觉特征、任务规则以及操作偏好,最终显著提升了人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性,实现了在多种复杂场景下的泛化性与稳定性。

Walker S2在工业场景中自主规划任务

在Thinker大模型技术体系的全方位赋能下,优必选新一代工业人形机器人Walker S2的“最强大脑”实现了显著进化。它不仅具备超高精度的环境感知能力,更能够在动态变化的场景中高效地完成任务分解、实时调整以及稳定规划。借助Thinker的强大能力,Walker S2能够精准识别设备、物料与障碍物,深度理解场景语义及操作前后的逻辑关联,从而显著提升了长周期任务的执行稳定性。在复杂的流水线环境中,机器人展现出持续连贯的规划能力,大幅降低了对人工干预的依赖。

实际应用数据显示,相较于仅基于通用数据进行微调的模型,采用工业数据集进行二次微调后,Walker S2在拆码垛规划等典型工业任务中的规划精度提升超过20%,这一数据有力验证了该技术方案的产业化价值。相关技术报告也将在arxiv上公开发布,以供全球研究者和开发者参考。

Walker S2在工业场景中自主规划任务

当前,人形机器人正处于大规模应用的关键时期,其持续发展亟需与广大开发者共同构建一个开放、协同的应用生态。为此,优必选正逐步开放一系列业界稀缺的工业场景数据集与通用基础大模型,旨在为全行业提供源自实际应用一线的高质量合规数据资源。开发者可基于优必选的多模态大模型Thinker,面向各类新兴场景开展精调与二次开发,从而有效提升开发效率。优必选期待与全球开发者携手,共同推动工业人形机器人的应用生态繁荣发展,为具身智能行业的加速进步注入持续动能。