近年来,人工智能在内容生成领域取得了突破性进展,尤其是将二维图像转化为三维可探索世界的尝试。腾讯推出的HunyuanWorld-Voyager模型,正是在这一前沿方向上迈出的重要一步,它允许用户通过单一图像输入,生成具有高度空间一致性的可导航视频序列,从而模拟在虚拟场景中“探索”的体验。这项技术不仅代表了AI视频生成的新范式,也对传统的3D建模和内容创作流程提出了新的挑战与机遇。
Voyager的核心创新在于其独特的几何反馈机制。不同于大多数仅仅追求帧间视觉连贯性的AI视频生成器(如Sora),Voyager在生成每帧图像的同时,也生成相应的深度信息。这意味着,当视频中出现一棵树时,模型不仅知道这棵树的视觉形态,还精确地感知到它与摄像机的距离。更进一步,Voyager利用一个称为“世界缓存”(world cache)的机制,这个缓存不断累积从先前生成帧中提取的3D点云数据。在生成新帧时,这些3D点云会根据新的摄像机视角被重新投影到2D平面上,形成一个参考图像。模型随后将根据这些投影作为几何一致性检查的依据,确保新生成的帧能够与之前生成的内容在空间上保持高度一致性。
尽管Voyager实现了令人印象深刻的类3D效果,但需要明确的是,它生成的并非传统意义上的、由网格和纹理构成的“真3D模型”。它本质上是生成一系列2D视频帧,这些帧在视觉上保持了空间一致性,仿佛摄像机在一个真实的三维空间中移动。这种方法使得物体在摄像机移动时能保持相对位置不变,并且视角变化符合我们对真实三维环境的预期。虽然输出的是带有深度图的视频,但这些信息可以被转换为3D点云,为后续的3D重建工作提供基础。目前,每次生成通常只能产生约49帧(大约两秒的视频),但通过将多个片段链式连接,可以实现长达“数分钟”的序列。
Voyager的训练过程同样体现了其技术的先进性。为了克服Transformer架构在泛化能力上的局限性,研究人员使用了超过10万个视频片段进行训练,其中包含了大量的真实世界录像和来自虚幻引擎(Unreal Engine)的计算机生成场景。这种混合数据集的策略,有效地教会了模型如何模仿摄像机在3D游戏环境中的移动模式。值得一提的是,腾讯还开发了一套自动化数据处理流程,能够自动分析现有视频,计算每帧的摄像机运动和深度信息,从而大大减少了人工标注的成本和时间投入,这对于大规模模型训练至关重要。
在实际应用中,用户可以通过简单的界面指定摄像机的移动轨迹,例如向前、向后、向左、向右或旋转等,系统便能根据这些指令生成相应的视频序列。这种用户友好的交互方式,极大地降低了3D内容创作的门槛。然而,目前该模型在处理360度全景旋转时仍面临挑战,这主要是因为在多帧累积的过程中,微小的模式匹配误差会逐渐放大,最终导致几何约束难以维持整体的连贯性。
技术细节与性能考量
根据腾讯发布的技术报告,Voyager模型的运行需要强大的计算资源。为了处理540p分辨率的视频生成,至少需要60GB的GPU内存,而为了获得更佳效果,建议使用80GB的GPU内存。这无疑对普通用户构成了较高的门槛,表明当前的技术距离普及化仍有一段距离。不过,该模型权重已在Hugging Face上开放,并支持单GPU和多GPU并行设置,开发者可利用xDiT框架在多GPU环境下实现更快的推理速度,例如,八块GPU的并行处理速度比单GPU提升了6.69倍。
该模型在Stanford大学研究人员开发的WorldScore基准测试中,取得了77.62分的总分,超越了WonderWorld的72.69分和CogVideoX-I2V的62.15分。特别是在物体控制(66.92)、风格一致性(84.89)和主观质量(71.09)方面表现出色,尽管在摄像机控制(85.95)上略逊于WonderWorld的92.98分。这些数据表明,Voyager在多维度的世界生成能力上表现均衡且领先。
Voyager是腾讯“混元”(Hunyuan)生态系统的重要组成部分,此前已发布了HunyuanWorld 1.0模型,以及用于文本到3D生成的Hunyuan3D-2和视频合成的HunyuanVideo。这表明腾讯正积极构建一个全面的生成式AI产品矩阵,旨在覆盖3D内容创作、视频生成等多个关键领域。
与其他“世界模型”的比较
当前市场上有多种“世界模型”尝试从不同角度解决类似问题。例如,谷歌在2025年8月发布的Genie 3模型,能够根据文本提示生成720p分辨率、24帧/秒的互动世界,并支持数分钟的实时导航。而Dynamics Lab的Mirage 2则提供了一个基于浏览器的世界生成工具,允许用户上传图像并实时通过文本提示将其转换为可玩环境。相较而言,Genie 3主要面向AI智能体训练且未公开,Mirage 2侧重于用户生成内容和游戏化,而Voyager则以其独特的RGB-深度输出能力,更专注于视频制作和3D重建的工作流。每种模型都有其独特的侧重点和应用场景。
尽管Voyager在技术上取得了显著进展,但其许可限制值得关注。与腾讯其他混元模型类似,Voyager禁止在欧盟、英国和韩国使用。此外,面向每月活跃用户超过1亿的商业部署,需要单独向腾讯申请许可。这些限制可能会在一定程度上影响其全球范围内的推广和应用。
未来展望
HunyuanWorld-Voyager的发布,无疑为AI驱动的3D内容生成描绘了激动人心的前景。尽管当前技术仍存在计算资源要求高、长序列连贯性挑战等局限性,但它已清晰展示了将静态图像转化为动态、可探索虚拟环境的巨大潜力。未来,随着AI算法的不断优化和计算硬件性能的飞速提升,我们可以预见,这类“世界模型”将逐渐打破现有的技术壁垒,实现更长时间、更高质量、更低成本的沉浸式体验生成。这不仅将革新电影制作、游戏开发和虚拟现实等领域,也可能催生出全新的互动艺术形式和数字体验。我们正处在一个由AI重塑数字世界的早期阶段,HunyuanWorld-Voyager正是这场变革中的一个重要灯塔。