当前,尽管生成式人工智能在技术前沿持续突破,其商业变现路径仍在探索之中。然而,这并未阻碍谷歌DeepMind以庞大的计算资源为支撑,不断拓展AI能力的边界。近期,随着Genie 3的正式发布,这一趋势得到了显著体现。距离Genie 2“基础世界模型”的亮相仅仅七个月,DeepMind再次凭借Genie 3实现了跨越式进步,而Genie 2本身已是其前身的一大飞跃。
Genie 3的核心能力在于,仅需一个文本提示或一张图像,即可创建出高度交互式的三维世界。由于其环境是持续生成且动态演变的,用户可以即时对场景进行修改。例如,您可以随意增删或更改物体,调整天气状况,甚至插入全新的角色——DeepMind将这些操作称为“可提示事件”(promptable events)。这种即时创建和修改三维环境的能力,无疑能为游戏玩家提供更加动态的游戏体验,同时也为游戏开发者提供了验证概念和设计关卡的新颖途径。不过,值得注意的是,游戏行业内仍有许多人对这类工具的实际效用持保留态度,认为它们距离真正满足开发需求尚有距离。
将Genie 3简单地视为一个游戏创作工具或许过于片面,DeepMind更将其定位为一项重要的研究工具。游戏在人工智能发展中扮演着举足轻重的角色,它们提供了充满挑战且高度互动的环境,同时能够对AI的进展进行量化衡量。正是基于这种认知,DeepMind此前曾利用《围棋》和《星际争霸》等游戏来推动AI技术的发展。
世界模型(World Models)的概念将这一研究提升到新的高度。它们能够逐帧生成互动世界,这为AI模型,特别是所谓的“具身智能体”(embodied agents),在遇到真实世界情境时的行为表现提供了磨练和完善的机会。当前,在追求通用人工智能(AGI)目标的过程中,一个主要瓶颈是可靠训练数据的稀缺性。在将互联网上海量的网页和视频数据输入AI模型之后,研究人员正越来越多地转向合成数据(synthetic data)以应对多种应用需求。DeepMind深信,世界模型有望成为解决这一问题的关键组成部分,因为它们能够为AI智能体提供近乎无限的互动世界进行训练,从而弥补真实世界数据采集的局限性。
DeepMind指出,Genie 3的发布标志着一项重要进展,因为它提供了比Genie 2显著更高的视觉保真度,并且真正实现了实时互动。通过键盘输入,用户现在可以以720p分辨率、24帧每秒的速度在模拟世界中进行导航。或许更重要的是,Genie 3具备了对所创建世界的记忆能力,使得视觉元素在离开视野后再次出现时,仍能保持一致性。
Genie 2最明显的局限性之一是其有限的记忆力,在大多数模拟中,其记忆时长仅限于大约10秒。这类似于聊天机器人超出其上下文窗口后会遗忘部分对话内容,Genie 2在部分世界元素短暂离开视野后便会遗忘其外观细节。谷歌在发布Genie 2时,曾将其这种微不足道的保留能力称为“长距离记忆”。然而,时代变迁之快令人惊叹。Genie 3的“记忆范围”已显著延长,将世界模型的边界推向了数分钟的视觉一致性,这对于构建复杂、持续的模拟环境至关重要。
尽管Genie 3在世界构建方面取得了显著进展,但它并非十全十美。将细节保留数分钟的能力确实解锁了更多的应用场景,但研究团队也承认,理想情况下,模型应能保持数小时的连贯性。此外,该模型目前还无法模拟真实的物理位置——它生成的一切都是独一无二且非确定性的。这意味着它也容易出现典型的AI“幻觉”。团队表示,Genie 3在准确性方面取得了巨大进步,但仍然会产生不正确的视频元素。例如,人类运动的细微差别有时会在生成过程中丢失,导致人物出现向后行走的异常姿态。除非提示中包含特定的字符串,否则这些AI世界中的文本也常常是乱码。
将AI智能体集成到世界模型中的方式也存在局限性。尽管可以创建具有逼真条件的世界和可提示事件,但当前智能体在其中并没有太多的主动角色。它们与模拟世界的交互仅限于在其中移动,因为目前的智能体缺乏改变模拟所需的高级推理能力。DeepMind也仍在探索让多个AI智能体在共享环境中相互作用的方式。或许,我们可以在未来几个月内,在Genie 4中看到这些能力的实现。
即使是那些每月愿意支付数百美元订阅高级AI服务的用户,也已了解到针对最大、最昂贵的模型存在使用限制。Genie 3本质上是在极短时间内渲染一段非常长的视频,使其看起来具有交互性,这无疑消耗了海量的处理能力。谷歌DeepMind尚未提供任何具体数据,但用户无法直接使用的事实本身就说明了问题所在。
Genie 3目前仍是一款研究工具,但其所展现出的强大能力无疑是DeepMind急于展示的。团队计划向一批专家和研究人员开放访问权限,以帮助进一步完善该模型。然而,他们也透露,未来的计划是逐步向更多公众开放Genie世界模型。这预示着一个充满想象力的未来,我们或许能通过此类模型,在虚拟空间中实现更深层次的互动和探索,甚至为各行各业的复杂问题提供前所未有的模拟和解决方案。从长远来看,这类技术的发展将不仅限于游戏或AI训练,它可能成为数字孪生、虚拟现实、复杂系统设计乃至科学研究的新范式,推动人类对现实世界的理解和改造。