在当前全球科技竞速的背景下,人形机器人的发展已成为衡量一个国家人工智能实力的重要标尺。近期,优必选公司再次凭借其卓越的研发实力,向世界展示了中国在具身智能领域的核心竞争力。其自主研发的人形机器人Walker系列“最强大脑”——百亿参数多模态大模型Thinker,在全球三大权威AI基准测试中表现出色,一举摘得四项世界第一的桂冠。这些由科技巨头微软、谷歌等联合发起并持续更新的榜单,汇聚了全球顶尖的AI研究机构与企业,如英伟达、北京智源研究院以及上海AI Lab等。优必选在此次激烈竞争中脱颖而出,不仅是技术突破的体现,更是其在机器人复杂环境感知、深层语义理解以及长程任务规划等关键技术维度上取得领先优势的有力证明。这一成就标志着优必选的人形机器人Walker S在具身智能方面实现了质的飞跃,使其真正具备了“看懂世界、自主完成任务”的强大能力,为未来智能机器人在复杂现实环境中的广泛应用奠定了坚实基础。
多模态感知与推理规划:赋能工业场景革新
在当前的智能化浪潮中,人形机器人的自主规划能力已然成为其核心竞争力的重要体现。传统的机器人系统往往依赖于预设的固定指令序列来执行任务,这种模式在面对高度动态且变化莫测的现实世界场景时,其适应性和效率往往捉襟而肘。本次优必选Thinker大模型所挑战并成功的AI基准测试,其核心目标正是对人形机器人在复杂环境中进行多模态感知与深度推理规划的能力进行全面而系统化的验证。
其中,MS COCO detection challenge作为由微软公司主导的计算机视觉领域全球权威评测基准,以其严谨的评估标准和广泛的行业认可度而闻名,长期以来都是衡量感知算法性能的关键标尺。而RoboVQA与Egoplan-bench2则分别由谷歌DeepMind与香港大学创新提出,专注于构建机器人第一视角推理与长周期任务规划的开放式标准测试环境,尤其侧重于多模态信息处理与跨时间序列的任务协调能力。参与这些榜单的,无一不是业界翘楚,包括但不限于北京智源、英伟达的ThinkAct、Cosmos-reason1以及GPT-4V和Qwen2.5-vl等前沿模型。优必选Thinker在此次较量中能够取得领先,无疑是对其技术实力最直接的肯定。
这一卓越成就的背后,是优必选自主研发的Thinker架构与其创新训练框架所提供的坚实技术支撑。通过一系列关键技术的突破性整合与系统优化,Thinker显著提升了人形机器人在感知与推理规划方面的综合能力,为工业场景中具身智能的规模化应用奠定了坚不可摧的基础。
Thinker核心技术解析
Thinker大模型之所以能够脱颖而出,主要得益于其在多个技术层面的深度创新:
自研视觉编码器基座:构建精准环境感知 优必选以Vision Transformer (ViT) 作为其视觉编码器原型,并创造性地结合了Co-DETR检测头。该系统首先依托Object 365等大规模开源数据集进行通用视觉任务的预训练,随后通过多阶段模态对齐机制,实现了视觉与语言模态之间的高效融合。最终,模型在优必选积累的专属机器人数据集上进行精细微调,使其在工业场景中对各类物体、障碍物以及操作上下文的识别能力得到显著提升。这为机器人在复杂多变的环境中实现稳定可靠的多模态环境感知提供了坚实基础,确保了机器人能够“看清”并“理解”其所处的环境。
超大规模参数架构:提供强大语义理解基础 优必选自主研发了具备百亿参数的Thinker多模态大模型基座,这一架构实现了视觉、语言和时间等跨域信息的统一表征。通过这种统一性,机器人能够在多元化的场景中准确捕捉环境细节,深入理解复杂的任务指令,并基于此进行逻辑推理。这种强大的语义理解能力为自动化操作提供了可靠的认知基础,使得机器人不再仅仅是执行者,更是能够理解意图并进行决策的智能体。
时序增强算法与强化学习方法:增强长程任务规划的连贯可靠性 针对长周期、多步骤任务的挑战,Thinker引入了大模型蒸馏技术,成功将百亿参数模型的卓越效果浓缩至更高效的7B参数模型中。这一优化不仅保持了模型的高性能水平,更显著增强了其对多步骤任务进行有效分解和连续决策的能力。将优化后的模型部署到机器人端侧,使其能够利用自身搭载的算力实时自主地拆解复杂流程,从而有效避免了在执行过程中可能出现的规划中断或逻辑混乱。在对流程连贯性要求极高、环环相扣的工业生产场景中,这一技术展现出无可替代的关键价值,它有力保障了生产的连续性和操作的安全性,让机器人能够流畅地完成从开始到结束的整个任务链条。
Prompt: "Move the material box to the conveyor belt." Thinker: "First locate the conveyor belt, then place the material box."
通用基础能力与工业场景精调:共创机器人应用新生态
当前,工业场景的精细化微调策略已经成为推动多模态大模型从实验室走向实际应用的关键驱动力。它为人形机器人在高要求的生产线上实现稳定、高效部署奠定了坚实的技术基础,从而显著加速了机器人从概念验证阶段迈向规模化实战应用的进程。
优必选在此方面采取了创新性的“通用基础能力打造 + 工业场景精调”双轨微调策略。首先,基于超过200万条视频数据构成的大规模训练集,进行全面的预训练以构建模型的通用理解能力。随后,这一模型被引入优必选在实际工厂实训中积累的亿级工业数据集进行深度微调。在此过程中,优必选对工业场景的任务规划数据进行了严格的清洗与整合,从而构建了一个高效的多模态大模型学习闭环。通过这一精细化流程,Thinker模型能够快速而准确地学习工业场景特有的视觉特征、任务执行规则以及操作偏好。最终,这一策略显著提升了人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性,使其能够在多种复杂多变的环境中展现出卓越的泛化性和稳定性。
Prompt: "Move the material box onto the pile of boxes next to it." Thinker: "The middle slot is the best one for the material box."
在Thinker大模型技术体系的全方位赋能下,优必选新一代工业人形机器人Walker S2的“最强大脑”实现了进一步的进化。它不仅具备了超高精度的环境感知能力,更能够在动态变化的生产环境中高效地完成任务分解、进行实时调整并制定稳定可靠的规划。借助Thinker的强大推理能力,Walker S2能够精准识别各类设备、物料与障碍物,深入理解场景语义及其操作前后的逻辑关联,从而显著提升了长周期任务的执行稳定性。在复杂多样的流水线环境中,机器人展现出持续连贯的规划能力,极大程度地降低了对人工干预的依赖,实现了真正意义上的自主运行。
实际应用数据显示,相较于仅依赖通用数据进行微调的模型,采用工业数据集进行二次精调后的Walker S2,在拆码垛规划等典型工业任务中的规划精度实现了超过20%的显著提升。这一数据有力地验证了该技术方案在产业化应用中的巨大价值和潜力,相关技术报告也将在权威平台arxiv上公开发布,以供全球研究者和开发者参考与交流。
Prompt: "Move the material box onto the roller rack." Thinker: "First locate the roller rack and then place material box."
展望未来,人形机器人正加速迈入大规模实际应用的关键发展阶段。其进一步的发展和普及,离不开与全球开发者群体共同构建一个开放、协同的创新应用生态。为此,优必选展现出其开放合作的姿态,将逐步开源一系列业界稀缺且极具价值的工业场景数据集,并计划开放其通用基础大模型。此举旨在为全行业提供源自实际应用一线的高质量、合规数据资源。开发者可以基于优必选的多模态大模型Thinker,面向各种新兴场景开展精细化微调与二次开发工作,这将极大地提升开发效率并加速创新成果的转化。我们满怀期待地邀请全球的开发者、研究者与产业伙伴携手合作,共同投入到工业人形机器人的应用生态建设之中,为具身智能行业的加速发展注入源源不断的创新动能,共同塑造一个更加智能、高效的未来工业生产新格局。