具身智能的共识与非共识:从形态到生态的产业探索

0

在人工智能技术快速发展的今天,具身智能作为连接虚拟世界与物理世界的关键桥梁,正逐渐成为产业关注的焦点。具身智能是指通过具有物理实体的智能体,在真实环境中感知、交互和学习,从而实现更接近人类的智能行为。这一领域的发展不仅关乎技术进步,更将深刻改变人类的生产生活方式。

一、形态之争:类人形态 VS 功能形态

在具身智能的产品形态上,行业存在两种截然不同的思路:一种追求"类人形态"的极致拟人,另一种则强调"功能形态"的极致效率。这一选择背后反映的是对机器人本质的不同理解与定位。

类人形态的优劣势

支持类人形态的观点认为,人类经过数百万年进化形成的身体结构,是适应自然环境和人类社会环境的最佳方案。优必选研究院A1大模型与交互部负责人石海林指出:"人之所以成为人形,我们的四肢,我们的手有五个手指头,我们的五官在头上,我们大部分人的眼睛的距离平均在6厘米,为什么大家都是这样的,其实背后是因为适应了自然环境和我们人类社会环境的结果。"

类人形态的优势主要体现在三个方面:

  1. 环境适应性:人类形态已经证明能够适应绝大多数人类生活环境,无需额外改造环境。
  2. 数据获取效率:通过人类进行遥操作或动作捕捉来采集数据,算法在数据闭环中迭代更高效。
  3. 社会接受度:拟人化设计更容易被人类接受,降低心理障碍。

功能形态的实用价值

然而,本末科技创始人兼CEO张笛提出了不同看法:"拟人作为一个大行业的入场券,没有任何的设计参照,开始想尽办法去开启一个行业,这个起始点非常好。但是随着一个行业的向下发展,总会发现,其实垫脚石下一步踩在哪?英雄老路未必是最优解。"

功能形态的优势同样明显:

  1. 效率最大化:针对特定任务设计的机器人往往比人形机器人更高效、更精准。
  2. 成本优势:非人形结构通常制造成本更低,维护更简单。
  3. 创新空间:摆脱人类形态的束缚,可以探索更多可能的设计方案。

轮足技术的崛起

在实际应用中,轮足技术作为一种介于传统轮式和足式之间的折中方案,正在获得越来越多的关注。张笛介绍:"本末我们自己一方面有一个直驱型的机器人关节的特色技术平台,另外一块是以轮足为特色的具身智能的机器人技术平台。"

轮足技术结合了轮式移动的高效率和足式移动的适应性,特别适合在复杂环境中作业。这种"非拟人、非仿生"的设计思路,代表了具身智能形态探索的一个重要方向。

二、技术路线之争:「先验模型」VS「数据规模」

在具身智能的技术发展路径上,行业存在两种不同的方法论:一种强调基于模型的先验知识,另一种则主张依靠数据规模的驱动。这两种方法各有优劣,也反映了不同团队的技术哲学。

先验模型的价值

极佳视界创始人兼CEO黄冠认为:"世界模型是物理AGI最后的瓶颈,并且它不是要5年、10年被攻克掉,实际上我们已经看到了它被解决的曙光,得益于整个生成式AI的发展。"

先验模型的优势在于:

  1. 数据效率:通过模型理解世界规律,可以减少对大量真实数据的依赖。
  2. 泛化能力:基于物理规律构建的模型更容易适应新环境。
  3. 可控性:模型驱动的系统行为更加可预测、可控制。

数据规模的重要性

然而,香港大学数据科学研究院助理教授李弘扬指出:"具身领域太缺数据了,这会导致驾驶模型和具身模型非常不一样的发展路径。"

数据驱动方法的优势包括:

  1. 直接学习:从真实数据中学习,避免模型偏差。
  2. 适应性强:能够捕捉到难以建模的复杂环境特征。
  3. 迭代快速:随着数据积累,系统性能持续提升。

世界模型的突破

黄冠详细介绍了世界模型在具身智能领域的三大价值:

  1. 数据来源:"世界模型提供了一种非常高效生成世界的方式,虽然它目前并不完美,但已经展现出巨大的价值,它是一个数据引擎,能够为具身智能提供无限的所需的数据。"

  2. 学习范式:"世界模型实际上为强化学习提供了一个非常好的闭环环境,它是能够被action驱动的,来预测未来环境变化的模型。对,所以我们叫它是可以Scale的强化学习。"

  3. 本质突破:"世界行动模型,可以替代VLA,L为什么会对action一定必须呢?我们过去做自动驾驶也没有语言,所以VLA依赖这个L问题是很大的,要真正实现智能,就得迈向世界行动模型。"

解决数据瓶颈的创新

针对世界模型本身也需要数据的问题,黄冠解释道:"世界模型所依赖的数据中,互联网的视频数据是最重要和基础的部分,这些视频数据看似没有直接呈现三维(3D)和physics,但实际上3D和physics都隐含在视频的隐空间里了。"

这一思路巧妙地利用了互联网上海量视频数据,通过深度学习技术提取其中的物理规律和三维结构,为世界模型训练提供了丰富的数据来源,打破了"模型需要数据,数据需要模型"的困境。

三、数据策略之争:仿真/合成数据 VS 真机数据

数据是具身智能发展的核心资源,然而如何高效获取高质量数据一直是行业面临的重大挑战。在数据采集策略上,仿真/合成数据与真机数据的取舍成为关键议题。

数据金字塔结构

李弘扬提出了"数据金字塔"的概念,认为不同来源的数据应该相互补充:"互联网数据,即ego-centric data,加上simulation,加上遥操等等这些,互为补充吧。"

这种多层次的数据采集策略包括:

  1. 互联网数据:利用公开视频、图像等资源进行预训练。
  2. 仿真数据:在虚拟环境中生成大量标注数据。
  3. 遥操作数据:通过人类远程操控采集真实交互数据。
  4. 真机自主采集:机器人自主探索环境收集数据。

ImageNet时刻的可能性

关于具身智能领域是否会出现类似计算机视觉领域的ImageNet时刻,行业专家持有不同观点。

黄冠认为:"我觉得很可能不会有ImageNet时刻,因为图像分类任务很标准化,给一张图片给了一个标签就行;但是具身机器人,所有的传感器、执行器、环境、物体都不一样,本体也不一样,具身不是打造一个数据集的问题。"

他进一步预测:"并且我们其实觉得没那么遥远,最近硅谷密集的出来一波公司,已经积累了10万小时以上的真机数据。所以可能明年很关键,明年全球可能会有5-10家公司,会把数据的量至少做到百万小时的级别(当然这里面大家数据来源的分布可能会不一样),可能会有公司接近GPT-3时刻。"

真机数据采集的挑战

与黄冠的乐观态度不同,李弘扬相对谨慎:"我没有那么乐观,跟黄总差不多,所以还是要遵循这个数据金字塔或者说pyramid的这种形式。"

真机数据采集面临的主要挑战包括:

  1. 成本高昂:需要大量硬件设备和人力投入。
  2. 效率低下:真实环境中的数据采集速度有限。
  3. 安全风险:机器人在真实环境中操作可能造成损坏或危险。
  4. 标准化困难:不同机器人、不同环境的数据难以统一处理。

AgiBot World的开源实践

针对数据共享的挑战,李弘扬介绍了他与智元联合开源的百万真机数据集AgiBot World:"这个百万真机数据集,至少现在回过头来看,可以用于预训练、世界模型的训练,能给那些没有海量数据的高校实验室提供一个很好的平台。"

开源数据集的价值在于:

  1. 降低研究门槛:使更多研究者能够获取高质量数据。
  2. 促进标准化:推动行业数据格式和标注方法的统一。
  3. 加速创新:减少重复劳动,集中精力解决核心问题。
  4. 构建生态:形成围绕数据的合作与共享机制。

四、场景之争:工业场景 VS 家庭场景

具身智能的应用场景选择直接影响技术路线和产品形态。工业场景与家庭场景作为两大主要方向,各有其特点和挑战。

工业场景的优势

工业场景被认为是具身智能最先实现商业化的领域,主要优势包括:

  1. 需求明确:工业环境中的任务通常定义清晰,目标明确。
  2. 结构化程度高:工厂环境相对可控,有利于机器人操作。
  3. ROI清晰:工业应用的投资回报容易计算,企业决策更理性。

石海林介绍了优必选在工业场景的实践:"在工业场景通过长期以来的应用,我们可以看到有大量的结构化任务,也有更大量的非结构化任务,这些非结构化的任务从需求出发,去要求产品和功能要具备更强的泛化能力。"

家庭场景的挑战

相比之下,家庭场景虽然市场潜力巨大,但面临更多挑战:

  1. 环境复杂多变:家庭环境高度非结构化,难以预测。
  2. 用户期望高:消费者对产品体验要求苛刻,容错率低。
  3. 成本敏感:家庭用户对价格敏感,难以接受高成本产品。

王丛(地瓜机器人CEO)指出:"C端跑出来的东西绝对不是一个价格偏高,PMF(市场匹配度)没有的东西,所以C端消费电子产品的功能一定是一点点积累的。"

渐进式发展路径

针对如何让机器人走进千家万户,张笛提出了渐进式发展思路:"当某一天我们在家里面看到自己的扫地机器人除了扫地以外,突然之间有了安防巡检功能的时候,它就向通用迈出一步。当它有了安防巡检之后,又有一定的家居物品要维护的时候,它又向前走了一小步。"

这种渐进式发展路径的特点是:

  1. 功能叠加:在现有产品基础上逐步增加新功能。
  2. 场景扩展:从单一场景向多场景延伸。
  3. 用户教育:通过实际使用培养用户习惯和期望。
  4. 成本控制:利用现有硬件平台,降低研发成本。

情绪价值的产品化

在家庭场景中,情绪价值成为一个重要考量因素。然而,如何将抽象的情绪需求转化为具体的产品定义,仍然是一个挑战。

张笛认为:"纯粹的情绪需求把它翻译成商业需求的语言,肯定是能够去做的。不管你是孤独也好,甚至孤独也可以分成若干种,解决不同的孤独,可能会有不同的产品形式可以去做,这个时候你发现情绪需求并不依赖于一个全能的机器人,只要针对那样专门的情绪需求定向去设计产品。"

石海林则从技术角度分析:"从我们行业内的观察、实践以及整个产业的推进节奏来看,这些技术的收敛速度会高过我们以前对它的预期。相对硬件来说,软件这两年其实是走在前面的,甚至如果我们今天把'情感陪伴'收窄到仅仅是'交互对话'这个范围的话,它其实已经是一个成熟的技术了。"

五、生态模式之争:生态开放 VS 全栈自研

在产业发展模式上,生态开放与全栈自研代表了两种不同的战略选择,各有其适用场景和优势。

全栈自研的优势

全栈自研模式的优势在于:

  1. 技术控制:对核心技术有完全掌控力。
  2. 系统优化:软硬件协同优化,性能更佳。
  3. 差异化竞争:构建独特的技术壁垒。

正如王丛所言:"世界是多元的,两种路线都对,只是我们感性上的追求,让我们选择了生态开放这一端。"全栈自研的代表企业如苹果,证明了这种模式的成功可能性。

生态开放的价值

生态开放模式的优势则体现在:

  1. 资源整合:汇聚多方力量,加速创新。
  2. 市场覆盖:通过合作伙伴扩大市场影响力。
  3. 降低门槛:使更多企业能够参与生态建设。

王丛分享了地瓜机器人选择生态开放路线的原因:"我觉得机器人行业就算发展十年,也依然会是非标市场——各行各业的机器人本体形态,大概率都会不一样。哪怕几年以后人形机器人变得非常泛化、智能,我也无法理解'用几十万的人形机器人来扫地'这件事——大家看的科幻电影里,未来是各种各样的机器人各司其职,我觉得现实的未来也会是这样。"

开源生态的建设

开源生态作为生态开放的重要组成部分,正在发挥越来越大的作用。李弘扬介绍了开源数据集的挑战与机遇:"其实最开始2023年我就和姚卯青合计这个事,2024年的时候智元还处在比较早期的阶段,但他能有这样的雄心壮志——在上海张江有2000平的数采场,而不是在大学实验室的简单的pick-and-place,这一点才是最打动我的。"

开源生态的价值包括:

  1. 知识共享:降低技术门槛,促进创新扩散。
  2. 标准统一:推动行业技术标准的形成。
  3. 人才培养:为行业培养大量专业人才。
  4. 测试验证:提供公开的测试基准和平台。

产业生态的协同发展

未来具身智能产业的发展,很可能形成全栈自研与生态开放并存的多元化格局。正如王丛所预见的:"虽然说这是我们的立场,但我觉得未来机器人公司有很多自研的,有很多会选择拥抱像地瓜这样的供应商,有很多公司会自研,这个太正常了。历史这么多年,每个行业都会有这样的分化:全栈自研的公司,比如苹果,是非常伟大的公司;拥抱生态开放的公司,比如英伟达,也是非常伟大的公司。"

六、人际关系之争:亲密共生 VS 警惕控制

随着具身智能技术的进步,人机关系正在成为社会关注的重要议题。机器人越来越像人,是提升用户体验的必要设计,还是会模糊人机边界?如何定义"适度亲密"的交互阈值?这些问题需要技术、伦理和社会多方面的思考。

人机关系的演变

石海林从技术发展角度分析了人机关系的演变:"从我们行业内的观察、实践以及整个产业的推进节奏来看,这些技术的收敛速度会高过我们以前对它的预期。相对硬件来说,软件这两年其实是走在前面的,甚至如果我们今天把'情感陪伴'收窄到仅仅是'交互对话'这个范围的话,它其实已经是一个成熟的技术了。"

这种技术进步正在推动人机关系从工具型向伙伴型转变:

  1. 功能互补:机器人承担人类不愿或无法完成的工作。
  2. 情感连接:提供陪伴、安慰等情感支持。
  3. 认知增强:辅助人类决策和问题解决。
  4. 身份认同:部分人类可能将机器人视为社会成员。

情绪价值的产品化

将抽象的情绪需求转化为具体的产品定义,是具身智能商业化的重要挑战。张笛提出了细分市场的思路:"这几年我们在观察整个市场,包括我们也服务了非常多的客户,这个过程当中我们也看到,确实还是有一些情绪需求,可以靠这些能移动的机器人,或者不能移动的对话终端,来去解决,进而形成一个比较稳定的市场,也能形成一个未来有机会逐渐走向通用的这样的minimal available product。"

情绪价值产品化的路径包括:

  1. 场景细分:针对特定情绪需求设计专门产品。
  2. 功能聚焦:突出核心情感功能,避免功能堆砌。
  3. 个性化定制:允许用户根据自身需求调整交互方式。
  4. 渐进式体验:通过长期使用建立情感连接。

适度亲密的交互设计

在机器人设计过程中,如何平衡"亲密"与"距离"成为关键考量。石海林认为:"从今天的技术势头来看,我们更应该思考的是怎么拥抱它、去接受它,怎么样更好地使用它,而不是抗拒这个趋势。"

适度亲密的交互设计原则包括:

  1. 尊重边界:明确人机关系的界限,避免过度拟人化。
  2. 用户控制:用户始终拥有最终决定权和控制权。
  3. 透明度:清楚传达机器人的能力限制和本质。
  4. 适应性:根据不同用户群体调整交互方式。

社会接受度的培养

提高社会对具身智能的接受度,需要多方共同努力:

  1. 教育普及:增进公众对机器人技术的理解和认识。
  2. 伦理规范:建立人机互动的伦理准则和规范。
  3. 法律保障:完善相关法律法规,保护各方权益。
  4. 循序渐进:通过小规模试点积累经验,逐步扩大应用范围。

石海林分享了自己的体验:"我本人属于那种技术狂热者,我会主动去买悟空机器人这种陪伴型产品。其实不只是我,陪伴型机器人的目标人群会从现在的技术狂热者,逐步渗透到普通大众接受者,这个过程同样不受人的意志所转移。"

结语:多元共生的具身智能未来

具身智能作为一个快速发展的新兴领域,正处于技术突破与产业落地的关键阶段。从形态选择到技术路线,从数据策略到应用场景,从生态模式到人机关系,每一个议题都存在不同的观点和探索路径。

这种多样性恰恰反映了具身智能领域的活力与潜力。正如张笛所言:"机器人这个赛道可以走伴生的模式非常多,但是现在似乎有太多狭隘,把所有的精力和资源投在一个角度上,这就是我们倾向于未来在双足和轮足上面,我们会朝着非拟人、非仿生这个方向探索的一个主要原因。"

未来,具身智能的发展很可能呈现多元化、场景化、个性化的特点,不同形态、不同技术路线、不同应用场景的机器人将共存于人类社会中,各司其职,共同服务。这一进程不仅需要技术创新,更需要社会各界的共同参与和思考,确保技术发展与人类价值观相协调,实现人机和谐共生的美好愿景。

在具身智能的探索之路上,没有唯一的正确答案,只有不断尝试、持续创新。正如王丛所期待的:"任何一家公司做事情,创始人、CEO都会有对未来的画面感——地瓜机器人的画面感是什么?或者说,什么事能让我们这帮人发自内心地开心?不是我们自己做出一个多智能、多厉害的机器人,而是看到各行各业的消费电子、智能硬件,都能通过我们的技术赋能实现智能化,这才是我幻想中的画面,也是能让我们真正开心的事。"

这种开放、包容、多元的产业生态,或许是具身智能走向成熟的关键所在。