人形机器人智能新纪元:优必选Thinker斩获全球四项第一
在全球科技巨头激烈角逐具身智能领域的当下,人形机器人的“大脑”进化速度正以前所未有的态势加速。优必选自主研发的百亿参数多模态大模型Thinker,近日在全球三大权威AI基准测试中一举斩获四项世界第一,标志着人形机器人智能发展进入了一个新的里程碑。这一成就不仅凸显了优必选在复杂环境感知、语义理解与长程任务规划等核心技术上的领导力,更预示着人形机器人实现“看懂世界、自主完成任务”的能力正在从愿景走向现实,特别是在高要求的工业场景中。
Thinker的卓越表现与行业标杆地位
优必选Thinker此次在全球AI基准测试中的胜利,并非偶然,而是其长期技术积累与创新实践的集中体现。这些测试平台汇聚了全球最顶尖的AI研究机构和科技企业,包括微软、谷歌、英伟达以及北京智源研究院、上海AI Lab等。在这样的高水平竞争中脱颖而出,其意义非凡。
MS COCO Detection Challenge: 由微软发起的这项挑战,是计算机视觉领域公认的权威评测基准,主要衡量算法在图像中准确识别和定位物体的能力。Thinker在此项挑战的Segmentation Mask和Bounding Box两项子任务中均表现出色,分别夺得第一和并列第一,这直接证明了其在视觉感知上的精准与高效。对于人形机器人而言,能否“看清”周遭环境中的每一个细节,是其执行复杂任务的前提。
RoboVQA与Egoplan-bench2: 由谷歌DeepMind和香港大学提出的这两个基准测试,则专注于机器人第一视角下的推理与任务规划能力,特别是多模态、长周期任务规划的性能。Thinker在这两项挑战中同样名列榜首,这意味着它不仅能识别物体,更能理解语境、进行逻辑推理,并据此规划出跨越时间维度的复杂操作序列。这对于人形机器人而言,是从“感知”迈向“认知”和“决策”的关键一步。
这些成绩的取得,核心在于Thinker所展现出的多模态感知与强推理规划能力。在动态且多变的现实环境中,传统机器人系统往往难以应对,因为它们大多依赖于预设指令。而Thinker的突破,在于它赋予了Walker S人形机器人自主理解环境、规划行动的智慧,从而为工业场景的规模化应用铺平了道路。
技术解密:Thinker大模型的创新架构
优必选Thinker的成功并非偶然,其背后是多项前沿技术的创新性整合与系统化提升。其架构与训练框架的精妙之处,体现在以下几个关键维度:
自研视觉编码器基座,构建精准环境感知
Thinker的视觉系统以Transformer(ViT)作为视觉编码器原型,并结合了Co-DETR检测头,这使得模型能够高效地从图像中提取高级语义特征。通过Object 365等大规模开源数据集进行通用视觉任务的预训练,Thinker获得了对世界基本视觉元素的强大理解能力。更重要的是,其通过多阶段模态对齐机制,实现了视觉与语言模态之间的高效融合,使得机器人在“看到”物体的同时,也能“理解”其名称、属性和功能。最终,在优必选积累的机器人专用数据集上进行微调,显著提升了机器人在工业场景中对物体、障碍物和操作上下文的识别精度,为复杂多变环境下稳定可靠的多模态环境感知奠定了坚实基础。这种从通用到专用、从粗粒度到细粒度的渐进式训练策略,是其感知能力强大的核心。
超大规模参数架构,提供强大语义理解基础
优必选自主研发的Thinker基座是一个具有百亿参数的多模态大模型,它实现了视觉-语言-时间的跨域统一表征。这意味着Thinker能够处理和整合来自不同传感器的数据,并将其映射到一个共享的语义空间中,从而在多场景中准确捕捉环境细节,深入理解人类的任务指令,并在此基础上进行高级推理。例如,当机器人面对一个新任务时,它不仅能识别出“物料箱”和“传送带”,更能理解“将物料箱移到传送带上”这一指令的深层含义,包括动作序列、目标状态以及可能存在的约束条件。这种强大的语义理解能力为自动化操作提供了可靠的认知基础。
时序增强算法与强化学习方法,增强长程任务规划连贯可靠
在复杂工业流程中,任务往往是多步骤、长周期的,对规划的连贯性和可靠性要求极高。Thinker通过大模型蒸馏技术,将百亿参数模型的复杂能力浓缩至7B参数模型中,在保持高性能的同时,显著增强了多步骤任务分解与连续决策能力。这种优化使模型可以在机器人自身搭载的算力上进行端侧部署,实时自主拆解复杂流程,有效避免了规划中断或逻辑混乱。例如,在执行“将物料箱搬运到传送带上”这样的任务时,Thinker能自主规划出“先定位传送带,再放置物料箱”等连续动作。这在流程严格、环环相扣的工业场景中展现出关键价值,有力保障了生产的连贯性和操作的安全性。
Prompt:「Move the material box to the conveyor belt.」
Thinker:「First locate the conveyor belt, then place the material box.」
从实验室到工厂:工业场景的精调策略与应用实践
将多模态大模型从理论研究推向实际应用,尤其是在高要求的工业场景中,精调策略扮演着至关重要的角色。优必选对此采用了“通用基础能力打造+工业场景精调”的创新性微调策略,这正是推动人形机器人迈向规模化实战应用的关键一步。
通用基础能力打造与工业场景精调
优必选首先基于超200万条视频数据构成的大规模训练集进行预训练,这为Thinker奠定了强大的通用视觉和语言理解能力。随后,关键在于引入优必选在工厂实训中积累的亿级工业数据集进行微调。这些数据集包含了大量真实工业场景中的视觉特征、任务规则与操作偏好,并且经过了严格的清洗与整合,构建了一个高效的多模态大模型学习闭环。通过这一流程,Thinker模型能够快速适应工业环境的独特挑战,显著提升了人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性,从而实现在多种复杂场景中的泛化性与稳定性。
Prompt:「Move the material box onto the pile of boxes next to it.」
Thinker:「The middle slot is the best one for the material box.」
Walker S2的具身智能进化
在Thinker大模型技术体系的全方位赋能下,优必选新一代工业人形机器人Walker S2实现了“最强大脑”的再进化。它不仅具备高精准环境感知能力,更能够在动态场景中高效完成任务分解、实时调整与稳定规划。借助Thinker,Walker S2可以精准识别设备、物料与障碍物,深度理解场景语义及其操作的前后逻辑关联,从而显著提升长周期任务的执行稳定性。在复杂的流水线环境中,机器人展现出持续连贯的规划能力,大幅降低了对人工干预的依赖。实际应用数据显示,相比仅基于通用数据微调的模型,采用工业数据集进行二次微调后,Walker S2在拆码垛规划等典型任务中的规划精度提升超过20%,这一数据有力验证了该技术方案的产业化价值,相关技术报告也将在学术平台arxiv上发布,以供全球同行参考。
Prompt:「Move the material box onto the roller rack.」
Thinker:「First locate the roller rack and then place material box.」
共创生态:推动人形机器人走向规模化应用
当前,人形机器人正处于从研发阶段迈向大规模应用的关键时期,其持续发展离不开开放、协同的应用生态。优必选深知这一点,并积极承担起行业引领者的责任,将逐步开源一系列业界稀缺的工业场景数据集与通用基础大模型。此举旨在为全行业提供源自实际应用一线的高质量合规数据资源,降低开发门槛。
开发者可基于优必选多模态大模型Thinker,面向各类新兴场景开展精调与二次开发,从而显著提升开发效率,加速创新产品的落地。我们坚信,通过与全球开发者、研究机构和企业携手合作,共同构建一个繁荣的工业人形机器人应用生态,具身智能行业将获得持续动能,迎来更为广阔的发展前景。优必选Thinker的此次突破,不仅是自身技术实力的展现,更是为整个行业探索智能未来描绘出清晰的路径。