人形机器人大脑进化:优必选Thinker何以领跑全球AI基准四榜?

1

人形机器人大脑进化:优必选Thinker智能飞跃的核心驱动

在当前全球智能化浪潮的推动下,人形机器人正从概念走向实际应用,而其核心挑战在于构建一个能够理解并适应复杂动态环境的“大脑”。传统机器人系统往往依赖预设指令,难以应对现实世界中多变且不确定的任务场景。因此,开发具备卓越多模态感知与推理规划能力的人形机器人,已成为行业竞争的关键维度。近期,优必选公司自主研发的人形机器人Walker的“最强大脑”——百亿参数多模态大模型Thinker,在全球三大权威AI基准测试中表现出色,一举斩获四项世界第一,标志着具身智能领域的一个重要里程碑。

这些测试由微软、谷歌等科技巨头发起并提出,汇集了包括英伟达、北京智源研究院、上海AI Lab等在内的全球顶尖团队。优必选Thinker的胜利,不仅验证了其在机器人复杂环境感知、深层语义理解及长程任务规划等核心技术方面的领先地位,更预示着人形机器人Walker S的具身智能已实现关键进化,使其具备了真正“看懂世界、自主完成任务”的潜力。

全球基准验证:Thinker在复杂环境下的卓越表现

本次Thinker大模型所参与并通过验证的三大基准测试,均旨在系统化评估人形机器人在复杂环境中的多模态感知和推理规划能力,这正是推动具身智能落地的核心难点。其中,MS COCO detection challenge作为微软发起的计算机视觉领域权威评测基准,在全球学术界与工业界享有极高声誉,常被用作感知算法性能的重要衡量标准。

而RoboVQA和Egoplan-bench2则分别由谷歌DeepMind和香港大学提出,致力于构建机器人第一视角推理与长周期任务规划的公开标准基准测试,尤其关注多模态信息的整合与处理能力。在这些高难度榜单中,优必选Thinker与包括北京智源、英伟达ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl在内的众多顶尖模型同台竞技,并最终脱颖而出。

优必选 Thinker 在 MS COCO detection challenge - Segmentation Mask 中排名第一

优必选 Thinker 在 MS COCO detection challenge - Bounding Box 排名中并列第一

优必选 Thinker 在 RoboVQA 与 Egoplan-bench2 中排名第一

这一系列令人瞩目的成绩,充分展现了优必选Thinker架构与训练框架所提供的强大技术支撑。通过多项关键技术创新性整合,该系统显著提升了人形机器人的环境感知与决策规划能力,为工业场景的规模化应用奠定了坚实的基础,也为具身智能的商业化路径提供了有力的数据佐证。

技术剖析:Thinker如何构建人形机器人的感知与规划力

Thinker大模型在技术架构上实现了多项突破,是其取得世界领先地位的关键。这些创新共同构成了人形机器人“大脑”的核心能力,使其能从复杂的原始感知数据中提炼出可操作的智能决策。

自研视觉编码器基座:构建精准环境感知

优必选以Vision Transformer(ViT)作为视觉编码器原型,并结合Co-DETR检测头,首先依托Object 365等大规模开源数据集进行通用视觉任务的预训练。在此基础上,通过独特的多阶段模态对齐机制,实现了视觉与语言模态的高效融合。最后,在优必选积累的机器人专用数据集上进行深度微调。这一系列操作显著提升了机器人在工业场景中对各类物体、障碍物以及操作上下文的识别能力,确保了其在光照变化、物体遮挡、形变等复杂环境下依然能进行稳定可靠的多模态环境感知,为后续的高级推理提供了高质量的输入。

超大规模参数架构:提供强大语义理解基础

优必选自主研发的Thinker基座是一个具有百亿参数的多模态大模型,它实现了视觉、语言和时间信息的跨域统一表征。这意味着机器人不再仅仅是孤立地处理图像或文本,而是能将它们整合到一个连贯的认知框架中。这种统一表征能力使得机器人能够更准确地捕捉环境中的细微特征,深入理解人类下达的任务指令,并基于这些信息进行复杂的推理。无论是识别一个工具的用途,还是理解一个操作步骤的意图,Thinker都能为自动化操作提供坚实的认知基础,极大地拓宽了机器人的应用边界。

时序增强算法与强化学习方法:增强长程任务规划连贯可靠

在面对多步骤、长周期任务时,规划的连贯性和可靠性至关重要。Thinker通过先进的大模型蒸馏技术,将百亿参数模型的卓越效果高效浓缩至一个7B参数模型中,使其在保持高性能的同时,能够更好地适应端侧部署的需求。这意味着机器人无需依赖强大的云端算力,即可凭借自身搭载的计算资源实时自主拆解复杂流程。此外,通过结合强化学习方法,Thinker能够持续优化决策策略,有效避免在连续任务执行过程中出现规划中断或逻辑混乱。在生产流程严格、环环相扣的工业场景中,这一能力展现出关键价值,有力保障了生产的连贯性和操作的安全性,显著提升了机器人应对真实世界复杂性的能力。

Walker S2在工业场景中自主完成上料

从实验室到产线:工业场景精调策略与应用实践

将多模态大模型从理论研究推向实际应用,尤其是在对精度和稳定性要求极高的工业场景中,精调策略扮演着至关重要的角色。优必选为此创新性地采用了“通用基础能力打造+工业场景精调”的微调策略,这为人形机器人在生产线上的稳定、高效部署奠定了坚实的技术基础,从而加速了其从技术验证阶段迈向规模化实战应用的进程。

具体而言,优必选首先基于超过200万条视频数据构成的大规模训练集对Thinker进行通用能力预训练,使其掌握广泛的视觉-语言理解能力。随后,引入优必选在工厂实训中积累的亿级工业数据集进行深度微调,并对工业场景任务规划数据进行严格的清洗与整合,从而构建了一个高效的多模态大模型学习闭环。通过这一精细化流程,Thinker模型能够快速学习并内化工业场景特有的视觉特征、任务规则与操作偏好,最终显著提升人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性。这使得Thinker赋能的机器人能够在多种复杂且动态的工业环境中展现出卓越的泛化性和稳定性。

Walker S2在工业场景中自主规划任务

在Thinker大模型技术体系的全方位赋能下,优必选新一代工业人形机器人Walker S2实现了“最强大脑”的再进化。它不仅具备高精准的环境感知能力,更能够在动态变化的场景中高效完成任务分解、进行实时调整并保持稳定的规划。借助Thinker的强大能力,Walker S2能够精准识别设备、物料与潜在障碍物,深度理解场景的语义及操作前后的逻辑关联,从而显著提升长周期任务的执行稳定性。在例如复杂流水线作业等环境中,机器人展现出持续连贯的规划能力,大幅降低了对人工干预的依赖,实现了更高程度的自主化。

实际应用数据显示,相比仅基于通用数据微调的模型,采用经过工业数据集进行二次微调的Thinker模型后,Walker S2在拆码垛规划等典型工业任务中的规划精度提升超过20%,这一显著的性能提升有力验证了该技术方案在产业化应用中的巨大价值。相关技术报告也将在arxiv上公开发布,以供全球研究者和开发者参考。

Walker S2在工业场景中自主规划任务

共创生态:人形机器人未来应用前景与开放合作

当前,人形机器人正处于大规模应用的关键历史阶段。为了加速这一进程并充分释放其潜力,行业发展亟需与全球开发者共同构建一个开放、协同的应用生态。认识到这一点,优必选正积极响应行业呼吁,计划逐步开源一系列业界稀缺的工业场景数据集与通用基础大模型。此举旨在为全行业提供源自实际应用一线的高质量、合规数据资源,填补当前机器人开发中数据匮乏的空白。

通过提供这些宝贵资源,开发者将能够基于优必选多模态大模型Thinker,面向各类新兴场景开展更深入的精调与二次开发,从而大幅提升开发效率并加速创新。优必选坚信,只有通过开放合作、资源共享,才能汇聚全球智慧,共同攻克人形机器人规模化应用的难题。我们期待与全球开发者携手,共创繁荣的工业人形机器人应用生态,为具身智能行业的加速发展注入持续动能,共同迎接智能机器人的新时代。