具身智能的六大争议:形态、技术、数据与场景的未来博弈

0

引言:具身智能的崛起与挑战

智能汽车作为机器人的第一个大终端,在大模型技术快速发展的当下,源自智能汽车的算法、算力技术正在被加速复用,催生出从单一任务到通用智能、从交通工具到机器人的宏大图景。这场从「车」到「人」的智能化跃迁,正推动着具身智能产业的蓬勃发展。

然而,具身智能的发展还面临多重现实挑战。从数据采集到模型训练,从硬件本体到场景落地,产业链各环节都存在大量技术和工程问题。仅仅依靠单一机构难以全链条突破,必需要构建多方共建的产业协作生态。

本文将深入剖析具身智能领域的六大核心争议,通过行业领袖的观点碰撞,揭示这一前沿领域的竞争格局与未来趋势。

一、形态之争:类人形态 VS 功能形态

在具身智能的产品形态上,行业存在明显分歧:是追求「类人形态」的极致拟人,还是「功能形态」的极致效率?

本末科技:非拟人、非仿生的探索

本末科技创始人兼CEO张笛指出,作为技术型创业者,他们对未来持有无限乐观,但对中短期发展保持审慎态度。这种平衡的思考方式影响了他们对机器人形态的选择。

"机器人这个品类有非常多可以选择的余地,甚至说仿生、拟人都只是一个可以选择的方向。这个行业有无限的可能。"

本末科技倾向于在双足和轮足方面探索非拟人、非仿生的方向。张笛认为,拟人作为行业的入场券有其价值,但随着行业发展,需要寻找新的设计思路:"英雄老路未必是最优解,我们有非常多的思路告诉你,机器人是新物种,可以完全设计一个新的产品。"

优必选:人形形态的必然选择

与本末科技不同,优必选坚定走人形机器人方向。其研究院A1大模型与交互部负责人石海林从生物进化和产业应用两个角度解释了这一选择:

"从大自然还有生物进化千百年来看,人之所以成为人形,我们的四肢,我们的手有五个手指头,我们的五官在头上,我们大部分人的眼睛的距离平均在6厘米,为什么大家都是这样的,其实背后是因为适应了自然环境和我们人类社会环境的结果。"

在工业场景中,人形机器人展现出独特优势:"在工厂看到,各类形形色色的机械臂各种捶打,但是只能做一些特定的死的任务,而且形态各异,动不动4、5米高,特别大。但我们看到更多的任务,是比如说物流转运,里面包含了搬运、分拣的任务,还有上下料、精密装配,他们的场景很多是一些狭窄的通道,一些灵巧的柔性的操作。"

数据迁移优势

石海林还强调了人形形态在数据采集方面的优势:"人形数据相对其他形态的数据更容易采集获取、标注清洗。以遥操作采集为例,如果设备与人形,比如手部、双臂,是同样的甚至同构的,那么操作员操作起来会更高效便捷,同时培训一个数量的操作员也更简单容易。"

技术路径选择

在技术路径上,行业也分化为两种思路:"通用底盘+功能模块"与直接开发全能一体化机器人。张笛将这两种路径分别称为"学院派"和"产业派":

"学院派是自上而下,以通用为大旗,去把所有的相关的技术去做推广和积累,但产业派就是循序渐进去做通用,本质上就是一个基座上面叠加模组。"

从商业化角度看,"产业派的速度和市场化的速度确实没那么快",但石海林认为,"自下而上从场景任务出发,构建海量的数据,以及基于算力的一些资源和优势,去快速把学术界从上而下的基座模型应用在具体各类场景中",这一过程正在加速。

二、技术路线之争:「先验模型」VS「数据规模」

在具身智能的技术路线上,行业存在"先验模型"(Model-based)与"数据规模"(Data-driven)两种不同思路。

极佳视界:世界模型的价值

极佳视界创始人兼CEO黄冠从世界模型的角度切入具身智能:"世界模型是物理AGI最后的瓶颈,并且它不是要5年、10年被攻克掉,实际上我们已经看到了它被解决的曙光,得益于整个生成式AI的发展。"

他认为世界模型对具身智能的价值体现在三个方面:

  1. 数据来源:"世界模型提供了一种非常高效生成世界的方式,虽然它目前并不完美,但已经展现出巨大的价值,它是一个数据引擎,能够为具身智能提供无限的所需的数据。"

  2. 学习范式:"世界模型实际上为强化学习提供了一个非常好的闭环环境,它是能够被action驱动的,来预测未来环境变化的模型。对,所以我们叫它是可以Scale的强化学习。"

  3. 模型架构:"世界行动模型可以替代VLA,L为什么会对action一定必须呢?我们过去做自动驾驶也没有语言,所以VLA依赖这个L问题是很大的,要真正实现智能,就得迈向世界行动模型。"

数据困境与突破

面对"世界模型也需要数据"的质疑,黄冠解释了三个模型的关系:"语言模型输出的是语言,世界模型输出的是对未来世界的预测,未来的世界可以用video去表示,可以用3D去表示,当然也可以把physics表示进去。第三个行动模型输出的是action。"

他进一步分析:"语言模型跟世界模型其实可能相比行动模型会好解决呢?就是因为数据多,大家都知道,语言模型有互联网上的海量文字数据作为支撑。而世界模型所依赖的数据中,互联网的视频数据是最重要和基础的部分,这些视频数据看似没有直接呈现三维(3D)和physics,但实际上3D和physics都隐含在视频的隐空间里了。"

Scaling Law的适用性

香港大学数据科学研究院助理教授李弘扬探讨了具身智能领域Scaling Law的适用性:"具身智能领域一定会有Scaling Law,到目前为止真正能算得上,做过Scaling Law实验的,这个世界上只有一家公司,就是Generalist AI,前一阵的Gen-0。"

他分析了数据采集的挑战:"Gen-0这个工作一周积累30个小时,300万条数据(有效的轨迹),我们大概也换算了一条,如果两班倒的话,采集这个不同的manipulation task,一班8个小时,16个小时,其实有效的转化率是4、5个小时,因为还要涉及到数据质检、熟悉的过程等。这样的话需要Aloha或者说主从臂这样的一套设备需要500套,很显然它不可能部署500套,所以肯定要走UMI等等这种低成本的路线。"

三、数据策略之争:仿真/合成数据 VS 真机数据

数据是具身智能发展的基础,但在数据采集策略上,行业存在明显分歧。

ImageNet时刻的可能性

黄冠对具身智能领域出现ImageNet时刻持怀疑态度:"我觉得很可能不会有ImageNet时刻,因为图像分类任务很标准化,给一张图片给了一个标签就行;但是具身机器人,所有的传感器、执行器、环境、物体都不一样,本体也不一样,具身不是打造一个数据集的问题。"

他预测:"所以我认为具身领域可能不会存在ImageNet的时刻,而是会直接到chatgpt时刻。并且我们其实觉得没那么遥远,最近硅谷密集的出来一波公司,已经积累了10万小时以上的真机数据。所以可能明年很关键,明年全球可能会有5-10家公司,会把数据的量至少做到百万小时的级别(当然这里面大家数据来源的分布可能会不一样),可能会有公司接近GPT-3时刻。"

数据金字塔策略

李弘扬则提出了数据金字塔策略:"我觉得从算法、数据、硬件以及法律这几个维度来看,如何构建一套高效的数据采集系统,在具身智能领域是非常关键,然后我们再来说Scaling Law这个事。"

他主张多种数据源互补:"互联网数据,即ego-centric data,加上simulation,加上遥操等等这些,互为补充吧。"

真机数据采集的挑战

真机数据采集面临多重挑战,包括硬件成本、数据质量、标注效率等。李弘扬指出:"在具身领域大家都在谈论数据金字塔、真机数据等概念,我觉得从算法、数据、硬件以及法律这几个维度来看,如何构建一套高效的数据采集系统,在具身智能领域是非常关键。"

四、场景之争:工业场景 VS 家庭场景

具身智能的商业落地路径存在明显分歧:是聚焦工业场景,还是进军家庭场景?

循序渐进的C端路径

张笛提出了循序渐进的C端发展路径:"当某一天我们在家里面看到自己的扫地机器人除了扫地以外,突然之间有了安防巡检的功能的时候,它就向通用迈出一步。当它有了安防巡检之后,又有一定的家居物品要维护的时候,它又向前走了一小步。"

他强调:"这样的循序渐进过程我觉得已经正在发生,而且如火如荼,甚至正在加速发生。"

C端场景的商业价值

地瓜机器人CEO王丛分析了C端场景的商业价值:"C端跑出来的东西绝对不是一个价格偏高,PMF(市场匹配度)没有的东西,所以C端消费电子产品的功能一定是一点点积累的。"

他以iPhone为例:"iPhone如果大家看乔布斯的发布会,其实就是通讯、MP3加上一个电话,三个已有功能整合到了一个产品上,然后慢慢构建起一个生态系统,从而有了所谓的智能手机。"

情绪价值的挑战

对于情绪价值在家庭场景的应用,王丛持谨慎态度:"情绪机器人这个事情我是很看好,但是它并不是严格意义上的价值,因为每个人,男人、女人、小孩、老人,每个人定义陪伴、定义情绪的概念太非标了,所以你很难定义出来一个所谓的陪伴机器人。"

张笛则提出了细分市场的思路:"纯粹的情绪需求把它翻译成商业需求的语言,肯定是能够去做的。不管你是孤独也好,甚至孤独也可以分成若干种,解决不同的孤独,可能会有不同的产品形式可以去做。"

五、生态模式之争:生态开放 VS 全栈自研

在产业发展模式上,存在"生态开放"与"全栈自研"两种不同路径。

地瓜机器人的生态开放选择

王丛解释了地瓜机器人选择生态开放路线的原因:"任何一家公司做事情,创始人、CEO都会有对未来的画面感——地瓜机器人的画面感是什么?或者说,什么事能让我们这帮人发自内心地开心?不是我们自己做出一个多智能、多厉害的机器人,而是看到各行各业的消费电子、智能硬件,都能通过我们的技术赋能实现智能化,这才是我幻想中的画面。"

他认为机器人行业具有非标特性:"机器人行业就算发展十年,也依然会是非标市场——各行各业的机器人本体形态,大概率都会不一样。哪怕几年以后人形机器人变得非常泛化、智能,我也无法理解'用几十万的人形机器人来扫地'这件事——大家看的科幻电影里,未来是各种各样的机器人各司其职。"

开源数据集的价值

李弘扬介绍了开源数据集AgiBot World的价值:"这个百万真机数据集,至少现在回过头来看,可以用于预训练、世界模型的训练,能给那些没有海量数据的高校实验室提供一个很好的平台。"

他也指出了挑战:"其实我们最近也在复盘,这样的模式能不能复制?毕竟像agibot world这样的数据集,买过来成本也不低,还需要一套完整的生态,上到云服务的支撑等等,都得配套。所以在这之后,开源开放的数据集其实挑战还是蛮多的,可能最后还是需要一个行业和众力共建的平台来牵引,搭建一个统一的真机测试场,而不是单纯靠一家的数据集独大,这样的生态会更合适一些。"

六、人际关系之争:亲密共生 VS 警惕控制

随着机器人越来越像人,人机关系也成为重要议题:是追求亲密共生,还是保持警惕控制?

情绪价值的商业转化

张笛提出了情绪价值商业化的思路:"这几年我们在观察整个市场,包括我们也服务了非常多的客户,这个过程当中我们也看到,确实还是有一些情绪需求,可以靠这些能移动的机器人,或者不能移动的对话终端,来去解决,进而形成一个比较稳定的市场。"

他指出对话终端已经形成MVP:"如果我们把具身智能列一个九宫格,横轴看是否与物理世界产生接触,纵轴是它到底要不要使用非常非常fancy的机器人算法,那这类对话终端其实就属于'不接触物理世界、仅依赖NLP算法'的类别,它确实也已经在具身这个赛道下面,扎扎实实定义出了一个minimal availbable product。"

技术迭代与市场接受

石海林分析了技术迭代对市场接受的影响:"从技术发展的速度来看,面向情感价值、情感陪护这个方向的机器人也好,具身智能产品也好,技术迭代真的非常快。从硬件上来说,不管是续航能力、结构复杂度,还是散热效果、运行噪音,甚至是外观设计,这些其实都还有很大的进步空间,但整体的发展速度非常快。"

他认为软件发展更快:"相对硬件来说,软件这两年其实是走在前面的,甚至如果我们今天把'情感陪伴'收窄到仅仅是'交互对话'这个范围的话,它其实已经是一个成熟的技术了。"

人机边界的思考

对于机器人越来越像人是否会模糊人机边界的问题,石海林持开放态度:"从今天的技术势头来看,我们更应该思考的是怎么拥抱它、去接受它,怎么样更好地使用它,而不是抗拒这个趋势。"

他预测市场接受度会逐步提高:"陪伴型机器人的目标人群会从现在的技术狂热者,逐步渗透到普通大众接受者,这个过程同样不受人的意志所转移。"

结论:具身智能的未来发展路径

具身智能正处于快速发展阶段,但面临多重争议与挑战。从产品形态到技术路线,从数据策略到场景落地,从生态模式到人机关系,行业尚未形成统一共识。

未来具身智能的发展可能呈现以下趋势:

  1. 形态多样化:类人形态与功能形态将长期共存,各自在不同场景发挥优势。

  2. 技术融合:先验模型与数据驱动两种思路将相互融合,形成更完善的解决方案。

  3. 数据生态:构建多元化的数据采集体系,包括仿真数据、合成数据与真机数据的协同。

  4. 场景细分:工业场景与家庭场景将并行发展,各自形成独特的商业模式。

  5. 生态协作:全栈自研与生态开放两种模式将互补共存,共同推动产业发展。

  6. 人机关系:技术进步将推动人机关系向更自然、更亲密的方向发展,但边界意识仍将保持。

具身智能的发展不是单一技术或产品的突破,而是整个生态系统的协同进化。只有通过产业链各环节的紧密合作,才能共同推动具身智能从实验室走向现实世界,真正改变人类的生产生活方式。